[Module 3] Machine Learning 개론: Recent Progress of Large Language Models
Part 3. Recent Progress of Large Language Models
Instruct GPT
Self-supervised language models does not necessarily follow a user's intent
따라서, instruct GPT는 언어를 완벽하게 이해한 모델을 가져다가 사람의 지시를 유용하게, 안전하게 응답을 생성할 수 있도록 학습시킨 것
Key idea: fine-tune GPT3 using human feedback
- Reinforcement learning from human feedback
- Uses human preferences as a reward signal to fine-tune models
- On prompts submitted by customers to the GPT3 API, labelers provide demonstrations of the desired model behavior, and rank several outputs from our models
Training of InstructGPT
Step1. Supervised fine-tuning (SFT)
Collect demonstration data, and train a supervised policy.
- GPT3(언어를 이해할 줄 알지만 사람의 지시를 이행하는 능력은 없음)를 가져와서 응답을 할 수 있도록 학습시킨다.
- 지시와 각각 지시에 대해 어떻게 응답을 해야 하는지 정답set을 통해서 GPT3를 supervised learning 시킨다.
Step2. Reward model training (RM)
Collect comparison data, and train a reward model.
- 하나의 질문에 대해서 여러 대답을 만들도록 한 다음, 이 중 어느 응답이 좋은지에 대해서 사람이 직접 ranking score를 매긴다.
- 이 과정을 반복해서 좋은 reward model을 만든다.
Step3. RL via PPO(강화학습 알고리즘)
Optimize a policy against the reward model using reinforcement learning
- ranking score를 강화학습의 보상으로 활용을 해서 supervised fine-tunning 된 instructGPT를 학습시킨다.
Chat GPT
A sibling model to InstructGPT with conversational UI (즉, 그냥 user interface만 붙인것!)
Iterative Deployment - Increase safety and usefulness of AI systems
GPT-4
- A large multimodal language model (*multimodal : 다양한 modality를 이해할 수 있음)
- Accept image and text inputs, and generate text outputs
- Exclusively used in Microsoft products
- Long context length up to 32768 tokens → ouput을 낼 때 고려하는 앞 token의 개수(context length)가 빠르게 증가하고 있다.
Limitation; GPT4 has similar limitations as earlier GPT models
- Not fully reliable; hallucinate facts and make reasoning errors (없는 사실을 만들어 내는 경우가 많다)
- Sensitive to the input phasing or different answers to the same prompt (좋은 prompt를 주어야 좋은 답변을 얻어낼 수 있다)
- Various biases in its outputs
- Not learn from its experience (개인정보 문제 이슈로 현재는 사람과 interaction을 통해서 배우지 않는다)
Google PaLM
Efficient scaling based on Google's Pathways system
- A new ML architecture enables training a single model across thousands or tens of thousands of accelerator chips
Great scaling and breakthrough reasoning capablities
→ 언어모델을 parameter 식으로 scaling 시켰더니, model이 커지면서 다양한 task 및 복잡한 작업이 수행 가능하다는 것!