1. Intro
강한 LLM이 주어진다면, 적은 Instruction data만으로도, (SFT+RLHF)의 효과를 낼 수 있음
•
The False Promise of Imitating Proprietary LLMs나 본논문이나 일관되게 주장하는것은 다음과 같음
1.
LLM은 Pre-training때 이미 지식을 다 배운다. (SFT때 지식을 더 넣으려고 하지 마셈)
2.
특히 이 논문에서는, alignment (prompt내에 있는 user의 intent에 반응하는거)는 단지 user와 학습하는 스타일과 format 중 하나이고 PT때 어느 정도 학습한다고 주장. 고퀄리티의 적은Instruction data를 가지고 잘만 튜닝하면, 그 PT때 학습한 방법을 빨리 꺼내온다고 주장.
•
(65B + AI Assistant에 맞게 Instruction dataset을 구축했지만) 1000개의 데이터의 Instruction Tuning으로 얻을 수 있는 효과는
1.
(못할줄 알았는데 함) 여행계획 짜기
2.
(못할줄 알았는데 함) 만약에 충으로 역사 구성하라고 하면 그럴듯하기 구상함
3.
unseen task generalization
#### NOTE!!!
⇒ 우리 세팅으로 가져오면,
vanilla LLM이
zero / few-shot setting에서
(1) 패션과 관련되어서 얼마나 fluent하고 사실적으로 말하는지 … PT때 패션 도메인 얼만큼 봤는가
(2) 광고문구를 얼마나 fluent하게 말하는지 … PT때 광고 문구 얼만큼 봤는가
(2)는 instruction tuning으로 하게 만들 수 있을거 같은데..
(1)은 PT때 많이 안봤으면 진짜 [MASK]두고 FIll-IN 식으로 해야하나..?
++) Domain Adaptation Training을 되게 신중하게 해야할거 같음
Contribution
•
Uniform Style(e.g. AI Assistant)을 고수하면서 Richness(=Diversity) Response를 보장한 다양한 Prompt들 크롤링하거나 구축하는건 굉장히 노가다스러운 일이지만, vanilla LLM의 성능이 보자만 된다면 RLHF 안해도 괜찮은 모델을 구울 수 있다.
2. Training Data
•
(데이터) AI assistant style처럼 구축했다고 강조 계속함
•
diversity도 강조 계속함
◦
Community인데 설명해주는 글 → stackoverflow, wikihow
⇒ 우리는 다양한 광고 문구를 어디서 가져와야할 거 같은데… (저작권… 문제 …)
•
uniform tone을 맞추는게 성능 향상에 도움이 된다고 계속 강조
⇒ 광고스러운 문구 (ICL로 처리할 것인가 튜닝을 시켜버릴것인가?) 
•
Manual하게 직접 구축한 데이터도 추가함
•
13개의 toxic & malevolence prompt에 반응하지 않은 데이터도 추가함
[EXAMPLES]
생각보다 Tuning EPOCH이 긺
3. Results
•
Human & GPT-4로 평가
1.
Alpaca 65B(52K로 Instruct-tuning), text-davinci003(RLHF)보다는 좋은 성능을 보임
2.
아직 진짜 초거대 BARD, CLAUDE, GPT-4에는 많이 밀리는 모습을 보임
4. Ablation
•
7B Model을 활용해 다양한 instruction data로 SFT를 진행
◦
위와 동일한 하이퍼파라미터 세팅
◦
평가는 5개 sampling해서 Chat-GPT활용해 6 Likert-Scale
Template
⇒ Prompt가 다양하고 Quality가 보장될수록 성능이 좋음 (Filtered > Diversity > UnFiltered)
(Quality가 다양성보다는 선행되어야함) …. 2000개로 실험
⇒ 7B모델로 Filtered Stack-overflow 데이터를 키우면서 학습한 결과 generation quality가 크게 변하지 않았다. (성능 향상을 위해서는 고품질의 uniform tone인 다양한 데이터가 필요하다)
•
고품질의 다양한 데이터로 학습한 7B LIMA의 성능은 없다..
⇒ 7B LIMA 학습하려면 (High Quality & Diversity & Uniform Toned)2-4K정도는 필요해보임