Artificial Intelligence/LG Aimers: AI전문가과정

[Module 3] Machine Learning 개론: Recent Progress of Large Language Models

Hyo__ni 2024. 1. 7. 13:41

Part 3. Recent Progress of Large Language Models

Instruct GPT

Self-supervised language models does not necessarily follow a user's intent

따라서, instruct GPT는 언어를 완벽하게 이해한 모델을 가져다가 사람의 지시를 유용하게, 안전하게 응답을 생성할 수 있도록 학습시킨 것

 

Key idea: fine-tune GPT3 using human feedback

  -  Reinforcement learning from human feedback

  -  Uses human preferences as a reward signal to fine-tune models

  -  On prompts submitted by customers to the GPT3 API, labelers provide demonstrations of the desired model behavior, and rank several outputs from our models

선호하는 응답을 내 놓을 수 있도록 학습된다.

Training of InstructGPT

Step1. Supervised fine-tuning (SFT)

Collect demonstration data, and train a supervised policy.

  -  GPT3(언어를 이해할 줄 알지만 사람의 지시를 이행하는 능력은 없음)를 가져와서 응답을 할 수 있도록 학습시킨다.

  -  지시와 각각 지시에 대해 어떻게 응답을 해야 하는지 정답set을 통해서 GPT3를 supervised learning 시킨다.

 

Step2. Reward model training (RM)

Collect comparison data, and train a reward model.

  -  하나의 질문에 대해서 여러 대답을 만들도록 한 다음, 이 중 어느 응답이 좋은지에 대해서 사람이 직접 ranking score를 매긴다.

  -  이 과정을 반복해서 좋은 reward model을 만든다.

 

Step3. RL via PPO(강화학습 알고리즘)

Optimize a policy against the reward model using reinforcement learning

  -  ranking score를 강화학습의 보상으로 활용을 해서 supervised fine-tunning 된 instructGPT를 학습시킨다.

 

 

Chat GPT

A sibling model to InstructGPT with conversational UI (즉, 그냥 user interface만 붙인것!)

Iterative Deployment - Increase safety and usefulness of AI systems

 

GPT-4

 -  A large multimodal language model (*multimodal : 다양한 modality를 이해할 수 있음)

 -  Accept image and text inputs, and generate text outputs

 -  Exclusively used in Microsoft products

 -  Long context length up to 32768 tokens → ouput을 낼 때 고려하는 앞 token의 개수(context length)가 빠르게 증가하고 있다.

 

Limitation; GPT4 has similar limitations as earlier GPT models

  -  Not fully reliable; hallucinate facts and make reasoning errors (없는 사실을 만들어 내는 경우가 많다)

  - Sensitive to the input phasing or different answers to the same prompt (좋은 prompt를 주어야 좋은 답변을 얻어낼 수 있다)

  -  Various biases in its outputs

  -  Not learn from its experience (개인정보 문제 이슈로 현재는 사람과 interaction을 통해서 배우지 않는다)

 

 

Google PaLM

Efficient scaling based on Google's Pathways system

  -  A new ML architecture enables training a single model across thousands or tens of thousands of accelerator chips

Great scaling and breakthrough reasoning capablities

→ 언어모델을 parameter 식으로 scaling 시켰더니, model이 커지면서 다양한 task 및 복잡한 작업이 수행 가능하다는 것!