✴️

Democratizing Large Language Models : From 175B to 7B

→ 제한된 자원에서 최적의 성능을 달성하기 위한 (모델 크기, 학습 step 수)의 조합이 존재

•

하나의 곡선은 동일한 FLOPs를 의미

•

매 곡선 당 각 자원에서 최적의 모델 크기 및 학습 Step을 의미

•

(좌하단 곡선) 학습 자원이 많이질수록 파라미터 수가 많아져야 효율적인 모델 훈련이 가능

•

(중앙) 최적 모델 파라미터 수와 회귀선을 시각화

•

(우측) 최적 학습 Step 수와 회귀선을 시각화

→ FLOPs가 고정되어있을 때, 모델 크기에 따라서 학습 Step 수가 자동으로 정해질 수 있음

⇒ 기존 LLM들이 UnderFIT 되어 있음을 입증

⇒ LLM Finetune시 더 적은 자원이 요구될 수 있음

•

GPT3는 안정성 측면에서 많은 문제점을 내포하고 있음

◦

학습 데이터: 온라인 상에서 수집된 무작위 데이터

◦

온라인 상에서 존재하는 많은 혐오표현을 학습 (distribution을 그대로 response)

→ 이걸 해결하기 위해서 어떻게 해야하나?!를 모색하고 해결한 방법론

수정해야하는 행동에 대해 인간이 직접 데이터 생성  (행동 당 8개 이내, 정치, 인종, 건강 등 분야)

수집된 데이터를 QA 형태로 사공

해당 데이터셋에 대해 2 EPOCH의 학습 진행(SFT) > 모델 크기에 비해 매우 적은 데이터로, 매우 적은 학습 STEP 진행

⇒ 소수의 데이터셋임에도 모델이 충분히 교정된행동을 보여줄 수 있음을 입증

•

사용자의 입력에 안전하고 유용하게 반응하기 위해 다음과 같은 하위 개념 정의

◦

Helpful: 사용자가 해결하려는 task에 도움이 되어야 함

◦

Hones: 잘못된 정보나 사용자가 잘못 해석할 수 있는 생성은 피해야 함

◦

Harmless: 사회 및 개인에게 물리적, 정신적 악영향을 미치지 않아야 함

→ 모든 하위 개념을 목적함수로 변환하는 것은 매우 복잡하기 때문에, LLM의 생성문에 대한 인간이 판단한 선호도(적절성)를 모델링하자.

•

연구 자원애서는 학습 효율이 아닌 Inference 효율이 중요함

•

연구 자원에서 학습/추론이 가능한 모델 크기 내에서 최적의 성능을 가져오자

•

6*10^e10 FLOPs의 자원에서

◦

Chinchilla Scaling Law에 따르면 3B가 가장 학습 효율이 좋음

◦

연구 환경을 고려, 1B이하의 모델은 900M이 가장 성능이 좋음

→ Chinchilla Scaling Law를 넘어선 학습 Step까지 학습 진행

•

기존에 공개된 대형 데이터셋을 이용하여 Pretrain

•

LLAMA는 인간의 선호도가 반영된 학습 X

•

GPT3과 동일하게 사용자의 입력에 안전하고 유용하게 반응하지 못함

•

RLHF 학습을 위해선 3가지 데이터셋 및 6B 이상의 모델 3가지 필요

◦

데이터셋 위해 Annotator 선별, Instruction 용 사용자 서비스 개발 필요

◦

엄밀한 데이터셋 설계가 요구됨

⇒ 제한된 자원(50만원)으로 RLHF 혹은 그와 유사한 훈련을 위한 데이터셋 확보 방안 필요

•

기존에 학습된 LLM을 이용하여 Instruction Tuning용 데이터셋 생성 방법론 제안

•

API 비용만 부담하여 SFT Dataset 확보 가능

#### 좋은 SFT Dataset의 조건

다양한 표현으로 작성된 Prompt

Prompt에 대해 적절히 작성된 응답

GPT-3 API만을 이용하여 모든 작업을 수행

#### SELF-INSTRUCT

Initiate the TASK POOL

Prompt 및 INSTANCE 생성을 위해 초기 PROMPT-REPONSE Pair를 사람이 생성

Instruction Generation

현재 Task Pool에서 임의의 Pair 8쌍 (8shot)을 이용하여 새로운 Prompt 생성

Human 6개

ii.

Model Generated 2개

Instance Generation

Filtering & PostProcessing

생성한 Prompt와 기존 Task Prompt의 Rouge-L이 낮은 Prompt만 추가

LLM이 처리 불가능한 Prompt 제외