1. Introduction
Superficial Alignment Hypothesis
: LLMs은 pre-training phase때 knowledge를 학습하고, SFT는 style-learning이다. (LIMA에서 처음 제안)
: SFT is all about style learning of formatting the response in a human-like manner
Two major principles are adopted for the selection of the SFT dataset.
1.
quality
2.
diversity
⇒ 2가지 기준은 pre-LLM 시대때부터 통용되던 기준, SFT의 Superficial Alignment Hypothesis를 고려할 때 제대로된 selection 기준일까?
무엇이 human-like manner response를 generation하기 위한 SFT dataset selection 기준일까?
⇒ LLM에게 SFT phase에서 ‘프랑스의 수도는 파리다’라는 것을 학습시킬 이유는 없다.
⇒ human style처럼 대답시키는 것을 학습시키면 된다.
⇒ 그렇다면, human style이 무엇일까? : 인간처럼 길게 대답하는것을 human style이라고 heuristic하게 정의함
•
longer version answer가 더 많은 detail을 가지고 있을것이라는 가정
•
인간이 보통 longer한 response에 더 많은 detail들을 포함시키기 때문에
2. Method
•
•
•
Want to prove that shows the superior instruction following capability than evaluated on some open-ended instruction test sets.
⇒ 가 긴 datum 선정해 top longest responses top-k로 SFT하는게 방법론의 전부
#### RQ: Length based Selection이 Quality, Diversity보다 좋을까?
Training Dataset
•
Alpaca-52K
•
WizardLM-70K
•
Dolly-15K
Backbone
•
LLAMA-2-7B
Baselines
•
Full dataset
•
Random selection
•
Quality based (GPT-3 Turbo Prompting → Likert scale)
•
Diversity based (Llama2 hidden → AVG Pool → K-means 100 Clusters → Sampling)
Evaluations
•
Dataset
◦
Self-Instruct
◦
Vicuna
◦
Koala
◦
Wizard LM
◦
LIMA
•
Metric
•
Model
◦
GPT-4
▪
Responses 2개 2번 pass 태워서 둘 다 선호면 Win, 둘 다 비선호면 Lose,그렇지 않으면 Tie
▪
GPT-4가 다른 모델에 비해서 verbosity bias (긴 답변을 선호하는 현상)가 완화되어었기 때문에 선택했다고 함
3. Main Results
→ SFT dataset별로 top-k threshold는 다르지면 response 긴 top-k로만 SFT 했을때 더 선호도(helpfulness, relevance, accuracy)가 높은 답변을 생성함
→ 같은 개수의 Diversity나 Quality로 selection해서 SFT한것보다도 선호도(helpfulness, relevance, accuracy)가 더 높게 나옴.
→ Shorter response top-k로 SFT하면 선호도(helpfulness, relevance, accuracy)가 박살남. (Full과 비교를 했을때)
•
GPT explanation 설명 뜯어보면 detailed해서 long top-k로 학습한 LM의 response를 더 선호한다고 함.
◦
GPT-4의 verbosity bias때문에 long top-k로 학습한 LM의 response에 더 높은 점수를 더 준게 아니다.
(왜냐? GPT-4가 reasoning path를 주었기 때문에)
◦
길이에 대한 penalty를 evaluation prompt를 주면 94.17% 일치를 보인다고 함
→ Benchmark에서도 실험결과를 공유
•
Long-Form, ELI5처럼 response generation task에서 성능 좋은건 Instruction Following Task의 일화이니 이전의 결과와 일치
•
Full SFT에서 MMLU, BBH score vanilla에 비해서 감소
•
Longest top-k로 SFT시 성능 vanilla에 비해서 성능 증가
(왜 그런지 대해서는 reasoning을 하지 X)