ํด๋น ๊ฒ์๊ธ์ ํํ ๋งํ๋ Big model(GPT-3, BERT)๋ค์ ํ์ฉํ๊ธฐ ์ํด์ ๋ฌด์์ ๊ณ ๋ คํด์ผ ํ ์ง, ํนํ
(1) Fine-tuning
(2) Knowledge distillation
์ ๋ํ ๋ด์ฉ์ ๋ด๊ณ ์์ต๋๋ค.
GPT-3์ ์ ๊ทธ๋ ์ด๋ ๋ฒ์ ์ธ GPT-4๊ฐ ์ต๊ทผ์ ๋ฐํ๋์์ต๋๋ค. ChatGPT๊ฐ ์ฑ๊ณตํ ์์ธ๋ GPT-3๋ผ๋ Big model์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ผ๋ ์๊ฐ์ด ๋๋๋ฐ์. ์ด๋ ๋ฏ ๊ธฐํ๊ธ์์ ์ธ ์๋๋ก ๋ฐ์ ํ๊ณ ์๋ pretrained big model๋ค์ ๋ฐ๋ก ์ฌ์ฉํ ์๋ ์๊ฒ ์ง๋ง, ์ค์ ์๋น์ค๋ ์ ์ฉ ๋ถ์ผ์ ์ ํ์ฉํ ์ค ์๋ ๊ฒ์ด ์ค์ํด์ง๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด ๋ ์ฌ๋ฌ๋ถ๋ค์ด ์์์ผ ํ ๊ฒ๋ค, ํนํ fine-tuning๊ณผ knowledge distillation์ ๋ํด์ ์ด์ผ๊ธฐ ํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
ch1 - Fine-tuning
์๋ฌด๋ฆฌ ์ข์ pre-trained model์ด๋ผ๋ ์๋น์ค์ ๋ฐ๋ก ํ์ฉํ ์ ์๋๊ฑด ์๋๋๋ค
์ fine-tuning์ ํด์ผ๋๋์?
Pretrained big model๋ค์ ์ฌ๋ฌ downstream task์ ์ ์ฉํ ๋ fine-tuningํ๋ ๊ฒ์ ์ด๋ฏธ ๋ง์ ๋ถ๋ค์ด ์๊ณ ๊ณ์๋ ๋ฐฉ๋ฒ์ผ๊ฒ๋๋ค. ์์ฐ์ด์ฒ๋ฆฌ ๋ถ๋ถ์์ ๊ฐ์ฅ ๋ํ์ ์ธ pretrained model ์ธ BERT์์๋ pretrained model์ ์ฌ๋ฌ task์ fine-tuningํ๋ ๋ฐฉ์์ ๋ณด์ฌ์คฌ๋๋ฐ์.
๋ชจ๋ธ์ ๊ตฌ์กฐ์ fine-tuning์ด ํ์ ์๋ ๊ฒฝ์ฐ, ์ฆ GPT-3๋ฅผ ๊ธฐ๋ฐ์ผ๋ก fine-tuning์ ์งํํ ChatGPT์ ๊ฐ์ ๊ฒฝ์ฐ์๋ fine-tuning์ ํ์ํ ์ ์์ต๋๋ค. ๊ทธ ์ด์ ๋ฅผ OpenAI์์๋ ‘alignment’ ๋ผ๋ ๊ฐ๋ ์ผ๋ก ์ค๋ช ํ๋๋ฐ์.
๋ชจ๋ธ์ด ํ์ต๋ ๋ ์ฌ์ฉ๋๋ Loss function์ ๋ํด์ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ์ต์ ํ ํ ์ ์๋์ง๋ฅผ ‘Capability๋ผ๊ณ ํ ๋, Alignment๋ ๋ชจ๋ธ์ด ํ์ต๋ ๋ฐฉํฅ์ด ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ์๊ฒ์ ์ํ๋ output ๋ฐฉํฅ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋ ์ง๋ฅผ ๋งํฉ๋๋ค. ๋ชจ๋ธ์ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ๊ณผ์ ์ ๋ฐ๋ผ์, capability๋ ๋์ง๋ง align๋์ง ๋ชปํ๋, mis-align๋ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง ์ ์๋ ๊ฒ์ด์ฃ . GPT-3์ ๊ฒฝ์ฐ ํ์ต ๋ฐฉํฅ์ ๊ณ ๋ คํ์ ๋ ‘์ฌ๋์ด ๋งํ ๋ฒ ํ’ ๋ฌธ์ฅ์ ๋ง๋๋ ๋ฐ์๋ ๋์ capability๋ฅผ ๋ณด์ฌ์ฃผ์์ง๋ง, ‘์ง๋ฌธ์๋ฅผ ๋ง์กฑ์ํค๋ ๋๋ต’์ ํ๋๋ฐ๋ align ๋์ง ๋ชปํ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ถ๋ถ์ ๊ฐ์ ํ ๊ฒ์ด InstructGPT, ChatGPT์ธ ๊ฒ์ด๊ตฌ์.
์ด๋ฌํ alignment ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๊ฐ fine-tuning์ ๋๋ค. Fine-tuning์ ํตํด์ ๋ชจ๋ธ์ output๋ค์ด ์ฌ์ฉ์์ ์๋์ align๋๋๋ก pre-trained model์ parameter๋ฅผ ์์ ํด์ฃผ๋ ๋ฐฉ์์ผ๋ก alignment๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ค ์ ์์ต๋๋ค. ChatGPT์ฒ๋ผ ๊ฐํํ์ต(RLHF)๋ฅผ ์ด์ฉํด์ fine-tuningํ ์๋ ์๊ฒ ์ง๋ง, ๊ฐ์ฅ ํํ ๋ฐฉ๋ฒ์ ์ ์ ํ pre-trained model์ domain-specificํ ๋ฐ์ดํฐ์ ์ผ๋ก ์ถ๊ฐ์ ์ผ๋ก fine-tuningํด์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ์๋ฅผ ๋ค์ด, BioBERT์์๋ ๊ธฐ์กด BERT๊ฐ biomedical text mining ๋ฌธ์ ์ธ NER, RE, QA์ ๋ํด์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก Biomedical document ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด์ fine-tuning์ ์งํํ์ฌ ๊ด๋ จ ๋ถ์ผ์ ๋ํ์์ ์ฐ์ํ ์ฑ์ ์ ๊ธฐ๋กํ๊ธฐ๋ ํ์ต๋๋ค.
์ด๋ป๊ฒ ํด์ผ fine-tuning์ ‘์’ ํ ์ ์๋์?
์ฌ์ค fine-tuning์ ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ํด์ง ๊ฒ์ด ์์ต๋๋ค. ์ฃผ์ด์ง task์ ๋ํด์ ์ ์ ํ evaluation ๋ฐฉ๋ฒ์ด ์ ์๋์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ฉด ์ด๋ฏธ ํจ๊ณผ์ ์ผ๋ก fine-tune ํ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ค๋ง, fine-tuning ์ด ์ ์๋ ๋ ์ค์ ์ ์ผ๋ก ๊ณ ๋ คํด๋ด์ผ ๋๋ ๋ช ๊ฐ์ง์ ๋ํด์๋ ์ด์ผ๊ธฐํด๋ณผ ์ ์์ต๋๋ค.
๋จผ์ pre-trained model์ ์ ์ ํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. Pre-trained model์ด ํ์ต๋ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง task์์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ๋น์ทํ ๊ฒฝ์ฐ๊ฐ ์ด์์ ์ด๊ฒ ์ฃ . ๋ํ, pre-trained model์ด ์ด๋ป๊ฒ ํ์ต๋์๋์ง, ์ด๋ค loss function์ ์ต์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋์๋์ง๋ฅผ ํ์ ํ๋ ๊ฒ๋ ์ค์ํฉ๋๋ค. GPT-3์ ChatGPT์ ์์์์ ๋ณผ ์ ์๋ฏ์ด ๋ง์ด์ฃ .
ํ์ต ๊ณผ์ ์์๋ Learning rate๋ฅผ ์ ์กฐ์ ํ๋ ๊ฒ ๋ํ ์ค์ํฉ๋๋ค. BERT, GPT-3์ ๊ฐ์ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ ๊ฒฝํ์ hyper-parameter, ํนํ learning rate ์ค์ ์ ๊ต์ฅํ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ ํธ์ ๋๋ค. ๋ณดํต fine-tuning์ ํ ๋๋ learning rate๋ฅผ pre-trained model์ ์ฒ์๋ถํฐ ํ์ตํ ๋ ๋ณด๋ค ์๋์ ์ผ๋ก ์๊ฒ ์ฃผ๊ณ ํ์ตํ๋ ๊ฒฝ์ฐ๋ ๋ง์ต๋๋ค. Learning rate๋ฅผ ๋๋ฌด ํฌ๊ฒ ์ฃผ๋ฉด ์ฃผ์ด์ง task dataset์ overfitting ํ๋ ๊ฒฝ์ฐ๋ ๋ง๊ธฐ ๋๋ฌธ์ ์ฃผ์ํด์ผ ๋ฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ ์ ํ regularization์ด ํ์ํฉ๋๋ค. Fine-tuning์ ์งํํ ๋, ๋ชจ๋ธ์ด ์ฃผ์ด์ง task dataset์ overfitting ๋๋ ๊ฒฝ์ฐ๊ฐ ๊ต์ฅํ ์ฆ์๋ฐ์. ๊ทธ๋์ learning rate์ ๋น์ทํ๊ฒ fine-tuning์์๋ ์ฒ์๋ถํฐ pre-trained model์ ํ์ต์ํฌ ๋์ ๋ค๋ฅด๊ฒ L1/L2 regularization์ ์ค์ ํ๊ฑฐ๋ early stopping์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ ์ถ์ธ๋ฅผ ๋ณด์ ๋๋ค.
ch2 - Knowledge distillation
Pre-trained model์ ๊ฐ๋ณ๊ณ ์์ ๋ชจ๋ธ๋ก ์ฎ๊ฒจ๋ณด์!
์ Knowledge distillation์ด ํ์ํ๊ฐ์?
์์์ ์ค๋ช ํ fine-tuning์ผ๋ก pretrained big model์ ์ฃผ์ด์ง task์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ์๋ ์์ง๋ง, ๋ณดํต ์ด๋ฐ pretrained model์ ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๋ง๊ณ ์ฌ์ด์ฆ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ์๋น์ค์์ ํ์ฉํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๋น์ค ํ๊ณ ์ถ์ AI ๋ชจ๋ธ์ ์๋ฒ ์์์ ์ฐ์ฐ์ ์งํํ ์๋ ์์ง๋ง ์ฌ์ฉ์์ ๊ธฐ๊ธฐ(์ค๋งํธํฐ, PC)์์ ์ฐ์ฐ์ ์งํํด์ผ ํ๋ ๊ฒฝ์ฐ ํด๋น AI ๋ชจ๋ธ์ด ์ฐจ์งํ๋ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ํด๋น ๊ธฐ๊ธฐ์ ์ฐ์ฐ๋์ด AI๋ชจ๋ธ์์ ์๊ตฌํ๋ ์์ค์ ๋ฏธ์น์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค. ํน์, AI ๋ชจ๋ธ์ ์ฐ์ฐ์ ์๋ฒ์์์ ์งํํ๋๋ผ๋ ์๋ฒ ๋น์ฉ ๋ฌธ์ ๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋ ๊ฐ๋ฒผ์ด AI ๋ชจ๋ธ์ด ํ์ํ ์๋ ์๊ตฌ์. ์ด๋ฌํ ๊ฒฝ์ฐ Knowledge distillation์ ์ด์ฉํด์ ์ ๊ณตํ๊ณ ์ ํ๋ ์๋น์ค์ ๋ ์ ํฉํ๋ฉด์ ๋ ๊ฐ๋ฒผ์ด AI๋ชจ๋ธ์ ๋ง๋ค์ด๋ผ ์ ์์ต๋๋ค.
์ด๋ป๊ฒ ํด์ผ Knowledge distillation์ ‘์’ ํ ์ ์๋์?
Knowledge distillation์ ์ด๋ฆ ๊ทธ๋๋ก ์์ ๋ชจ๋ธ(student model)์ pre-trained ๋ชจ๋ธ(teacher model)์ knowledge๋ฅผ ์ฆ๋ฅ, ์ฆ ํ์ํ ์ง์๋ง ์ถ์ถํด๋ด๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค. ์ฌ๋ฌ ๋ฐฉ๋ฒ์ด ์๊ฒ ์ง๋ง, ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ์์ผ๋ก๋ Geoffrey Hinton์ด ์ ์ํ soft label์ ์ด์ฉํ knowledge distillation์ด ์์ต๋๋ค(Distilling the Knowledge in a Neural Network).
Classification์ ์งํํ ๊ฒฝ์ฐ ์ฃผ์ด์ง๋ one-hot encoding์ด ๋ label์ hard label์ด๋ผ๊ณ ํฉ๋๋ค. ํ์ง๋ง teacher model์ ์์ธก๊ฐ์ softmax๋ฅผ ๊ฑฐ์น ํํ๋ก, ์ ๋ต dog๊ฐ ์๋ class๋ค์ด 0์ด ์๋ ๊ฐ์ ๊ฐ์ง๋๋ฐ ์ด๋ฅผ soft label์ด๋ผ๊ณ ํฉ๋๋ค. Hinton์ ์๊ฐ์, soft label์์ ์ ๋ต์ด ์๋ class์ ๋ํ teacher model์ ์์ธก๊ฐ ๋ํ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ง๋๊ณ ์์ผ๋ฏ๋ก, soft label์ ์ด์ฉํด student model์ ํ์ต์ํด์ผ๋ก์ knowledge distillation์ ์งํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ ๋ฆฌํ์๋ฉด, ์ค์ ๋ฐ์ดํฐ์์ ๋์จ hard label๊ณผ, teacher model์์ ๋์จ soft label์ ํจ๊ป ์ด์ฉํ์ฌ student model์ ํ์ตํ๋ ๊ฒ์ด ๊ฐ์ฅ ๋จ์ํ ํํ์ knowledge distillation์ด ๋ฉ๋๋ค.
ํจ๊ณผ์ ์ธ knowledge distillation์ ์ํด์ ์ค์ ์ ์ผ๋ก ๊ณ ๋ คํด๋ด์ผ ๋๋ ๋ถ๋ถ๋ค์ fine-tuning๊ณผ ๋น์ทํ๋ฐ์. ๋จผ์ ์ข์ teacher model, ์ฆ pre-trained model์ ์ ์ ํํ๋ ๊ฒ์ด ์ค์ํ ๊ฒ์ด๊ตฌ์. knowledge distillation ์ญ์ overfitting ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ ํ regularization์ด ํ์ํฉ๋๋ค. ํ์ต ๊ณผ์ ์์๋ ์ด๋ค loss function์ ์ด์ฉํด์ student model์ ํ์ตํ ์ง ๋ํ ์ค์ํ๋ฐ์. Teacher model์ output์ด ์ฃผ๋ ์ ๋ณด์ ์ค์ ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก ์กฐํฉํ ์ง์ ๋ํด์ ์ถฉ๋ถํ ๊ณ ๋ฏผํด๋ด์ผ ํฉ๋๋ค.
Summary
์ด๋ฒ ํฌ์คํ ์์๋ ์ต๊ทผ ํญ๋ฐ์ ์ผ๋ก ๋ฐ์ ๋๊ณ ์๋ pre-trained big model๋ค์ ์๋น์ค์ ์ ํ์ฉํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก fine-tuning๊ณผ knowledge์ ๋ํด์ ๊ฐ๋จํ๊ฒ ์ด์ผ๊ธฐ ํด๋ณด์์ต๋๋ค. ๋ฐ์ ๋ big model๋ค์ ์ค์ ์๋น์ค๋ ํน์ ๋๋ฉ์ธ์ ‘์’ ํ์ฉํ๋ ๊ฒ์ big model๋ค์ด ๋ฐ์ ๋จ์ ๋ฐ๋ผ ์ค์ํด์ง ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
์๋ชป๋ ๋ด์ฉ์ด ์๊ฑฐ๋ ๋ฌธ์์ฌํญ์ด ์์ ๊ฒฝ์ฐ ํธํ๊ฒ ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค!
