Search
✴️

Democratizing Large Language Models : From 175B to 7B

Category
BlogPost
Venue
ARXIV
Backbone
Text
PPT

Compute-Optimal Training

→ 제한된 자원에서 최적의 성능을 달성하기 위한 (모델 크기, 학습 step 수)의 조합이 존재
하나의 곡선은 동일한 FLOPs를 의미
매 곡선 당 각 자원에서 최적의 모델 크기 및 학습 Step을 의미
(좌하단 곡선) 학습 자원이 많이질수록 파라미터 수가 많아져야 효율적인 모델 훈련이 가능
(중앙) 최적 모델 파라미터 수와 회귀선을 시각화
(우측) 최적 학습 Step 수와 회귀선을 시각화
→ FLOPs가 고정되어있을 때, 모델 크기에 따라서 학습 Step 수가 자동으로 정해질 수 있음
⇒ 기존 LLM들이 UnderFIT 되어 있음을 입증
⇒ LLM Finetune시 더 적은 자원이 요구될 수 있음

GPT-3

Target Data Adaptation

GPT3는 안정성 측면에서 많은 문제점을 내포하고 있음
학습 데이터: 온라인 상에서 수집된 무작위 데이터
온라인 상에서 존재하는 많은 혐오표현을 학습 (distribution을 그대로 response)
→ 이걸 해결하기 위해서 어떻게 해야하나?!를 모색하고 해결한 방법론
1.
수정해야하는 행동에 대해 인간이 직접 데이터 생성 (행동 당 8개 이내, 정치, 인종, 건강 등 분야)
2.
수집된 데이터를 QA 형태로 사공
3.
해당 데이터셋에 대해 2 EPOCH의 학습 진행(SFT) > 모델 크기에 비해 매우 적은 데이터로, 매우 적은 학습 STEP 진행
⇒ 소수의 데이터셋임에도 모델이 충분히 교정된행동을 보여줄 수 있음을 입증

Instruction GPT - Aligning LLM to Follow Instruction

사용자의 입력에 안전하고 유용하게 반응하기 위해 다음과 같은 하위 개념 정의
Helpful: 사용자가 해결하려는 task에 도움이 되어야 함
Hones: 잘못된 정보나 사용자가 잘못 해석할 수 있는 생성은 피해야 함
Harmless: 사회 및 개인에게 물리적, 정신적 악영향을 미치지 않아야 함
→ 모든 하위 개념을 목적함수로 변환하는 것은 매우 복잡하기 때문에, LLM의 생성문에 대한 인간이 판단한 선호도(적절성)를 모델링하자.

LLAMA

연구 자원애서는 학습 효율이 아닌 Inference 효율이 중요함
연구 자원에서 학습/추론이 가능한 모델 크기 내에서 최적의 성능을 가져오자
6*10^e10 FLOPs의 자원에서
Chinchilla Scaling Law에 따르면 3B가 가장 학습 효율이 좋음
연구 환경을 고려, 1B이하의 모델은 900M이 가장 성능이 좋음
Chinchilla Scaling Law를 넘어선 학습 Step까지 학습 진행
기존에 공개된 대형 데이터셋을 이용하여 Pretrain

SELF-INSTRUCT

LLAMA는 인간의 선호도가 반영된 학습 X
GPT3과 동일하게 사용자의 입력에 안전하고 유용하게 반응하지 못함
RLHF 학습을 위해선 3가지 데이터셋 및 6B 이상의 모델 3가지 필요
데이터셋 위해 Annotator 선별, Instruction 용 사용자 서비스 개발 필요
엄밀한 데이터셋 설계가 요구됨
제한된 자원(50만원)으로 RLHF 혹은 그와 유사한 훈련을 위한 데이터셋 확보 방안 필요
기존에 학습된 LLM을 이용하여 Instruction Tuning용 데이터셋 생성 방법론 제안
API 비용만 부담하여 SFT Dataset 확보 가능
#### 좋은 SFT Dataset의 조건
1.
다양한 표현으로 작성된 Prompt
2.
Prompt에 대해 적절히 작성된 응답
3.
GPT-3 API만을 이용하여 모든 작업을 수행
#### SELF-INSTRUCT
1.
Initiate the TASK POOL
a.
Prompt 및 INSTANCE 생성을 위해 초기 PROMPT-REPONSE Pair를 사람이 생성
2.
Instruction Generation
a.
현재 Task Pool에서 임의의 Pair 8쌍 (8shot)을 이용하여 새로운 Prompt 생성
i.
Human 6개
ii.
Model Generated 2개
3.
Instance Generation
4.
Filtering & PostProcessing
a.
생성한 Prompt와 기존 Task Prompt의 Rouge-L이 낮은 Prompt만 추가
b.
LLM이 처리 불가능한 Prompt 제외