Big model을 활용하기 위해서 당신이 고려해야할 것(fine-tuning, knowledge distillation)

해당 게시글은 흔히 말하는 Big model(GPT-3, BERT)들을 활용하기 위해서 무엇을 고려해야 할지, 특히

(1) Fine-tuning

(2) Knowledge distillation

에 대한 내용을 담고 있습니다.

GPT-3의 업그레이드 버전인 GPT-4가 최근에 발표되었습니다. ChatGPT가 성공한 원인도 GPT-3라는 Big model을 효과적으로 활용했기 때문이라는 생각이 드는데요. 이렇듯 기하급수적인 속도로 발전하고 있는 pretrained big model들을 바로 사용할 수도 있겠지만, 실제 서비스나 적용 분야에 잘 활용할 줄 아는 것이 중요해진다고 볼 수 있습니다. 이 때 여러분들이 알아야 할 것들, 특히 fine-tuning과 knowledge distillation에 대해서 이야기 해보도록 하겠습니다.

ch1 - Fine-tuning

아무리 좋은 pre-trained model이라도 서비스에 바로 활용할 수 있는건 아닙니다

왜 fine-tuning을 해야되나요?

Pretrained big model들을 여러 downstream task에 적용할때 fine-tuning하는 것은 이미 많은 분들이 알고 계시는 방법일겁니다. 자연어처리 부분에서 가장 대표적인 pretrained model 인 BERT에서도 pretrained model을 여러 task에 fine-tuning하는 방식을 보여줬는데요.

마지막 layer를 적용하는 task에 맞게 설계한 뒤 fine-tuning을 진행하는 BERT

모델의 구조상 fine-tuning이 필요 없는 경우, 즉 GPT-3를 기반으로 fine-tuning을 진행한 ChatGPT와 같은 경우에도 fine-tuning은 필요할 수 있습니다. 그 이유를 OpenAI에서는 ‘alignment’ 라는 개념으로 설명하는데요.

모델이 학습될 때 사용되는 Loss function에 대해서 모델이 얼마나 잘 최적화 할 수 있는지를 ‘Capability라고 할 때, Alignment는 모델이 학습된 방향이 우리가 모델에게서 원하는 output 방향과 얼마나 일치하는 지를 말합니다. 모델을 학습하는데 사용된 데이터나 과정에 따라서, capability는 높지만 align되지 못하는, mis-align된 모델이 만들어질 수 있는 것이죠. GPT-3의 경우 학습 방향을 고려했을 때 ‘사람이 말할 법 한’ 문장을 만드는 데에는 높은 capability를 보여주었지만, ‘질문자를 만족시키는 대답’을 하는데는 align 되지 못한 것이라고 볼 수 있습니다. 그리고 이 부분을 개선한 것이 InstructGPT, ChatGPT인 것이구요.

이러한 alignment 문제를 해결하는 방법 중 하나가 fine-tuning입니다. Fine-tuning을 통해서 모델의 output들이 사용자의 의도와 align되도록 pre-trained model의 parameter를 수정해주는 방식으로 alignment문제를 해결해줄 수 있습니다. ChatGPT처럼 강화학습(RLHF)를 이용해서 fine-tuning할 수도 있겠지만, 가장 흔한 방법은 적절한 pre-trained model에 domain-specific한 데이터셋으로 추가적으로 fine-tuning해주는 방식입니다. 예를 들어, BioBERT에서는 기존 BERT가 biomedical text mining 문제인 NER, RE, QA에 대해서 더 좋은 성능을 내도록 Biomedical document 데이터를 이용해서 fine-tuning을 진행하여 관련 분야의 대회에서 우수한 성적을 기록하기도 했습니다.

어떻게 해야 fine-tuning을 ‘잘’ 할수 있나요?

사실 fine-tuning을 잘 하는 방법은 정해진 것이 없습니다. 주어진 task에 대해서 적절한 evaluation 방법이 정의되었을때 좋은 성능을 보여준다면 이미 효과적으로 fine-tune 한 것이라고 볼 수 있습니다. 다만, fine-tuning 이 잘 안될때 중점적으로 고려해봐야 되는 몇 가지에 대해서는 이야기해볼 수 있습니다.

먼저 pre-trained model을 잘 선택하는 것이 중요합니다. Pre-trained model이 학습된 데이터가 주어진 task에서 사용되는 데이터와 비슷한 경우가 이상적이겠죠. 또한, pre-trained model이 어떻게 학습되었는지, 어떤 loss function을 최적화하는 방향으로 학습되었는지를 파악하는 것도 중요합니다. GPT-3와 ChatGPT의 예시에서 볼 수 있듯이 말이죠.

학습 과정에서는 Learning rate를 잘 조절하는 것 또한 중요합니다. BERT, GPT-3와 같은 Transformer 기반의 모델들은 경험상 hyper-parameter, 특히 learning rate 설정에 굉장히 민감하게 반응하는 편입니다. 보통 fine-tuning을 할때는 learning rate를 pre-trained model을 처음부터 학습할 때 보다 상대적으로 작게 주고 학습하는 경우도 많습니다. Learning rate를 너무 크게 주면 주어진 task dataset에 overfitting 하는 경우도 많기 때문에 주의해야 됩니다.

마지막으로, 적절한 regularization이 필요합니다. Fine-tuning을 진행할 때, 모델이 주어진 task dataset에 overfitting 되는 경우가 굉장히 잦은데요. 그래서 learning rate와 비슷하게 fine-tuning시에는 처음부터 pre-trained model을 학습시킬 때와 다르게 L1/L2 regularization을 설정하거나 early stopping을 적극적으로 활용하는 추세를 보입니다.

ch2 - Knowledge distillation

Pre-trained model을 가볍고 작은 모델로 옮겨보자!

왜 Knowledge distillation이 필요한가요?

앞에서 설명한 fine-tuning으로 pretrained big model을 주어진 task에서 효과적으로 적용할 수도 있지만, 보통 이런 pretrained model은 파라미터 개수가 많고 사이즈가 크기 때문에 서비스에서 활용하기 어려운 경우가 많습니다. 예를 들어, 서비스 하고 싶은 AI 모델을 서버 상에서 연산을 진행할 수도 있지만 사용자의 기기(스마트폰, PC)에서 연산을 진행해야 하는 경우 해당 AI 모델이 차지하는 메모리가 너무 크거나 해당 기기의 연산량이 AI모델에서 요구하는 수준에 미치지 못하는 경우가 있습니다. 혹은, AI 모델의 연산을 서버상에서 진행하더라도 서버 비용 문제로 비슷한 성능에 더 가벼운 AI 모델이 필요할 수도 있구요. 이러한 경우 Knowledge distillation을 이용해서 제공하고자 하는 서비스에 더 적합하면서 더 가벼운 AI모델을 만들어낼 수 있습니다.

어떻게 해야 Knowledge distillation을 ‘잘’ 할수 있나요?

Knowledge distillation은 이름 그대로 작은 모델(student model)에 pre-trained 모델(teacher model)의 knowledge를 증류, 즉 필요한 지식만 추출해내는 것이 목적입니다. 여러 방법이 있겠지만, 가장 기본적인 방식으로는 Geoffrey Hinton이 제안한 soft label을 이용한 knowledge distillation이 있습니다(Distilling the Knowledge in a Neural Network).

Classification을 진행할 경우 주어지는 one-hot encoding이 된 label을 hard label이라고 합니다. 하지만 teacher model의 예측값은 softmax를 거친 형태로, 정답 dog가 아닌 class들이 0이 아닌 값을 가지는데 이를 soft label이라고 합니다. Hinton의 생각은, soft label에서 정답이 아닌 class에 대한 teacher model의 예측값 또한 의미있는 정보를 지니고 있으므로, soft label을 이용해 student model을 학습시킴으로서 knowledge distillation을 진행할 수 있다는 것입니다. 정리하자면, 실제 데이터에서 나온 hard label과, teacher model에서 나온 soft label을 함께 이용하여 student model을 학습하는 것이 가장 단순한 형태의 knowledge distillation이 됩니다.

효과적인 knowledge distillation을 위해서 중점적으로 고려해봐야 되는 부분들은 fine-tuning과 비슷한데요. 먼저 좋은 teacher model, 즉 pre-trained model을 잘 선택하는 것이 중요할 것이구요. knowledge distillation 역시 overfitting 문제가 발생할 수 있기 때문에 적절한 regularization이 필요합니다. 학습 과정에서는 어떤 loss function을 이용해서 student model을 학습할지 또한 중요한데요. Teacher model의 output이 주는 정보와 실제 정보를 어떻게 효과적으로 조합할 지에 대해서 충분히 고민해봐야 합니다.

Summary

이번 포스팅에서는 최근 폭발적으로 발전되고 있는 pre-trained big model들을 서비스에 잘 활용하기 위한 방법으로 fine-tuning과 knowledge에 대해서 간단하게 이야기 해보았습니다. 발전된 big model들을 실제 서비스나 특정 도메인에 ‘잘’ 활용하는 것은 big model들이 발전됨에 따라 중요해질 것으로 보입니다.

잘못된 내용이 있거나 문의사항이 있을 경우 편하게 댓글로 남겨주시면 감사하겠습니다!

저작자표시 비영리 변경금지 (새창열림)