ChatGPT를 가능케한 근본은 무엇일까? ChatGPT에게 물어보았다.(feat. InstructGPT)

해당 게시글은

(1) ChatGPT, 그리고 InstructGPT가 가능했던 중요 기술과

(2) 해당 기술이 적용된 원리와 시사하는 점

에 대한 내용을 담고 있습니다.

Chapter #1 - ChatGPT를 성공케 만든 중요 기술은 무엇일까

왜 GPT-3는 안되는 걸 ChatGPT는 가능하게 된 것인가요?

최근 화제가 되고 있는 chatGPT

ChatGPT 가 공개된지 2달이 다 되어가고 있습니다. ChatGPT는 출시 5일만에 사용자 100만명을 달성하고, 놀랍도록 정확한 언어 구사능력과 정말 도움이 될 법한 답변들을 보여주면서 구글 검색을 대체할 수도 있다는 이야기가 나오면서 많은 화제를 불러일으켰는데요. 최근에는 의학논문 사전 공개 누리집 메드아카이브(MedRxiv)에 챗지피티가 논문 공저자로 적힌 논문이 등록되기도 하고, 미국 의사면허 시험을 통과했다는 연구 결과까지 올라오는 등 잇따라 화제를 낳고 있습니다. 미국의 일부 학교는 학생들이 시험·과제 등에 챗지피티를 쓰지 못하도록 교내 접속을 차단하고 몰래 사용하는 행위를 색출하는 소프트웨어까지 개발해 활용하고 있을 정도로, ChatGPT가 우리 사회에 주고 있는 임팩트는 엄청나다고 볼 수 있습니다.

ChatGPT의 원리는 사실 InstrucGPT의 방식과 비슷하다

chatGPT가 화제가 된 원인으로 여러가지를 들 수 있겠습니다만, 그 중심에는 사람들이 느끼기에도 그럴듯한 말을 만들어내는 능력과, 질문에 대한 정확한 답변이 있습니다. 그런데 사실 chatGPT의 원리는 그 이전에 발표된 InstructGPT와 굉장히 비슷하며, openai 본인들도 자매 모델이라고 이야기 하고 있습니다.

InstructGPT는 OpenAI에서 개발한 기계 학습 모델로, 텍스트 입력을 받아 작업 지시문(instructions)을 생성하는 기능을 가지고 있습니다. 여기서 말하는 작업 지시문은 아래의 prompt와 같은 질문들을 말합니다.

예시에서도 볼 수 있듯, InstructGPT는 기존 모델인 GPT-3와 비교했을때 놀라울 정도로 풍부하고 정확한 언어 생성 능력을 보여줍니다. 이는 openAI의 논문에서 수치적으로도 명확하게 보여지고 있습니다.

ChatGPT와, InstructGPT가 GPT-3와 비교했을때 훨씬 더 좋은 답변 생성 능력을 얻은 데에는 여러 이유가 있겠지만, 저는 chatGPT 본인에게 물어보는 것이 가장 정확한 답변일 것 같아서 직접 https://chat.openai.com/chat 를 통해서 물어보았습니다!

chatGPT 본인의 설명으로는 chatGPT와 instructGPT 모두에 사용된 주요한 기술로 강화학습과 Interactive learning을 꼽고 있습니다. 두 기술에 대한 chatGPT의 설명은 다음과 같습니다.

Reinforcement Learning: As we discussed earlier, RL can be used to train the model to make decisions about the next word to generate in a sentence. The model is given a prompt or context and generates a response. The response is then evaluated by a reward function, which assigns a score based on how well the response fits with the prompt or context. The model uses this feedback to adjust its parameters and improve its performance over time. This technique can be used in combination with pre-training and fine-tuning to improve the performance of the model. This technique is not used in GPT-3 to train the model.

Interactive learning: The model can be placed in a virtual environment and can be trained to take actions and make decisions based on the feedback it receives. This allows the model to learn from its own experience and improve its performance over time. This technique is not used in GPT-3 to train the model.

돌이켜 생각해보면, Interactive learning 또한 결국 강화학습 상에서의 환경을 이용하는 학습이라고 볼 수 있습니다. 결국 chatGPT와 instructGPT에서 가장 중요한 기술적 기여도가 큰 부분은 강화학습이라고 볼 수 있습니다. 여기서 우리는, 강화학습이 어떻게 두 모델의 chatbot으로서의 성능 향상을 비약적으로 이끌어낼 수 있었을까에 대해서 곱씹어볼 수 있습니다.

강화학습의 기여점, 그리고 시사점

강화학습이 어땠길래 큰 성능 향상을 이룬 것일까?

Reward model을 통해 사람을 흉내내다

ChatGPT가 학습되는 과정을 openai에서는 다음 그림으로 설명합니다.

개인적으로 핵심이 되는 부분은 Step 2에서 reward model을 만드는 과정이라고 생각합니다. Reward model은 질문에 대한 ChatGPT의 답변에 대해서 사람이 매긴 점수를 학습하게 되는데요. 학습된 reward model은 Step 3에서 chatGPT 모델이 내뱉은 답변에 대한 human preference, 즉 실제 사람이 답변에 대해서 얼마나 만족하는지에 대한 점수를 예측하게 됩니다. 이 reward model이 강화학습 상에서 환경(environment)으로서 작용하게 되어 chatGPT가 점점 더 높은 점수를 받는 방향으로 학습이 된다고 생각하시면 됩니다. 개인적으로는 이 reward model이 중요하다고 생각하는데요. 어떻게 보면 reward model은 chatGPT의 학습 과정에서 label을 제공하는 역할을 하고 있어서 reward model이 점수를 제공하는 방향이 달라진다면 chatGPT이 학습되는 방향 또한 완전히 달라질 수 있기 때문입니다. 또한, chatGPT의 모든 답변에 대해서 human preference 점수를 사람이 줄 수 없는 상황에서, 이를 어느정도 reward model이 가능하게 만들어 주었다는 점이 인상적이었습니다.

ChatGPT가 시사하는 점

chatGPT을 보면서 제가 참신하다고 생각하는 부분은 크게 두 가지인데요. 첫번째는 chatGPT의 모든 답변에 대한 human preference 점수를 사람이 실제로 줄 수 없는 상황에서, reward model이 preference 점수의 분포를 학습하여 모든 답변에 대한 점수를 부여하고 어떤 답변이 상대적으로 더 좋은 답변인지 chatGPT 모델이 학습하게 된 점, 그리고 이를 통해서 실제 inference 과정에서 chatGPT가 가장 좋은 답변을 output할 수 있게 된 점입니다.

두번째는, 기존 language model(LM)의 학습 방법이 statistical structure of language, 즉 언어 내 통계적 구조 혹은 분포를 이용해서 학습되던 과정에서 생긴 문제점들에 대한 해결책을 제시했다는 점입니다. 기존 language model들은 보통 다음과 같은 방식으로 학습이 되는데요. 예를 들어, "I love cheese burger" 라고 하는 문장이 존재할 때 language model들은 "I love [MASK] burger" 로 문장을 바꾸고 [MASK] 자리에 무슨 단어가 오면 좋을까? 라는 질문에 대해서 cheese라는 단어가 오도록 학습이 됩니다. 그리고 이러한 문장들을 우리가 사용하는 wikipedia나 웹 상의 자연어 데이터로부터 사용하게 된다면, language model은 [MASK] 자리에 cheese나 beef와 같이 실제 사람들이 많이 넣을만한 단어를 집어넣는 방향으로 학습이 될겁니다. 이를 통해서 language model이 생성하는 문장이 실제 사람들이 사용하는 것과 같이 자연스러운 문장이 만들어지게 되는 것이죠.

단, 이러한 방식의 문제점도 존재하는데요. Language model이 생성하는 문장은 자연어의 분포상 '자주' 등장하는 자연스러운 문장이지 어떠한 태스크나 질문에 대한 적절한 문장이 아닐 수 있다는 점입니다. 예를 들어, "Admiral Yi Sun-shin [MASK] in the battle of Noryang" 이라는 문장에 대해서, language model이 [MASK]에 들어갈 만한 단어로서 모든 단어들에 대해서 확률을 매길 때 'died' 와 'won'이라는 두 단어 모두 높은 확률, likelihood를 매기게 됩니다. 하지만, "When did Admiral Yi Sun-shin died?"라는 질문이 들어온다면 두 단어에 매겨지는 likelihood는 확연히 달라져야겠지요.이렇듯 특정 질문에 대한 답을 할때는 자연어의 분포 상의 정보만으로는 부족한 경우가 발생합니다. 그렇다고 모든 질문에 대해서 label을 매겨서 language model에 정보를 제공할 수도 없는 것이구요. InstructGPT, 그리고 chatGPT는 이러한 문제에 대해서 reward model을 통해 language model이 답변을 할때 필요한 추가적인 정보를 제공하는 방식으로 문제를 해결했다고 볼 수 있습니다.

마지막으로, chatGPT에서 던진 시사점을 통해서 무엇이 더 가능할까에 대해서 고민해 볼 수 있을까요? reward model은 결국 사람이 주관적으로 주는 점수를 label로 삼아서 학습하고, 여기서 얻은 정보를 chatGPT에 주입하게 됩니다. 즉, reward model에 주어지는 label을 어떠한 방식으로 설계하는지에 따라서 chatGPT는 새로운 방향으로 학습될 수 있다는 점입니다. 예를 들면, 어린이들이 이해하기 쉬운 답변에 대해서 높은 점수를 주면 어린이들이 사용하기 좋은 chatGPT가 될 수도 있겠죠. 혹은 일반인들 보다는 변호사나 의사와 같이 전문 직종의 어휘나 문체를 많이 활용한 답변에 대해서 높은 점수를 주면, 해당 전문직 종사자들에게 큰 도움이 될 수도 있을 것이구요.

정리하자면, InstructGPT 이전까지 대부분의 language model들은 더 많은 데이터, 더 큰 모델을 추구하면서 성능을 끌어올려왔던 부분이 있었습니다. GPT-1~3까지 만든 OpenAI또한 그랬습니다. 하지만 instructGPT와 chatGPT 기점으로 OpenAI는 모델의 거대화를 통해 성능향상을 이뤄내던 트렌드에 새로운 방향점을 시사했습니다. 이러한 방향은 실제로 놀라운 성능을 보여주면서 어느 정도 올바른 접근법이라는 사실을 증명했고, 추가적으로 우리가 language model을 다양한 방향으로 개선시켜 볼 수 있다는 점을 시사하고 있습니다.

[References]

[1] Ouyang et al., "Training language models to follow instructions with human feedback", https://arxiv.org/pdf/2203.02155.pdf

저작자표시 비영리 변경금지