Search

Rethinking Data Selection for Supervised Fine-Tuning

Category
PaperReview
Venue
ARXIV
Backbone
LLAMA
Text
- LLMs은 pre-training phase때 knowledge를 학습하고, SFT는 style-learning이다 - SFT dataset을 human response를 mimic하도록 selection하는게 가장 좋다.
PPT

1. Introduction

Superficial Alignment Hypothesis

: LLMs은 pre-training phase때 knowledge를 학습하고, SFT는 style-learning이다. (LIMA에서 처음 제안)
: SFT is all about style learning of formatting the response in a human-like manner

Two major principles are adopted for the selection of the SFT dataset.

1.
quality
2.
diversity
⇒ 2가지 기준은 pre-LLM 시대때부터 통용되던 기준, SFT의 Superficial Alignment Hypothesis를 고려할 때 제대로된 selection 기준일까?

무엇이 human-like manner response를 generation하기 위한 SFT dataset selection 기준일까?

⇒ LLM에게 SFT phase에서 ‘프랑스의 수도는 파리다’라는 것을 학습시킬 이유는 없다.
⇒ human style처럼 대답시키는 것을 학습시키면 된다.
⇒ 그렇다면, human style이 무엇일까? : 인간처럼 길게 대답하는것을 human style이라고 heuristic하게 정의함
longer version answer가 더 많은 detail을 가지고 있을것이라는 가정
인간이 보통 longer한 response에 더 많은 detail들을 포함시키기 때문에

2. Method

(xi,yi)D(x_{i},y_{i}) \in D
DDD' \in D
Want to prove that MDM_{D'} shows the superior instruction following capability than MDM_{D} evaluated on some open-ended instruction test sets.
yi|{y_{i}}|가 긴 datum 선정해 top longest responses top-k로 SFT하는게 방법론의 전부
#### RQ: Length based Selection이 Quality, Diversity보다 좋을까?

Training Dataset

Alpaca-52K
WizardLM-70K
Dolly-15K

Backbone

LLAMA-2-7B

Baselines

Full dataset
Random selection
Quality based (GPT-3 Turbo Prompting → Likert scale)
Diversity based (Llama2 hidden → AVG Pool → K-means 100 Clusters → Sampling)

Evaluations

Dataset
Self-Instruct
Vicuna
Koala
Wizard LM
LIMA
Metric
# Win# Lose# Testset+1, where # Testset=# Win+# Tie+# Lose\frac{\# \ Win - \# \ Lose}{\# \ Testset} + 1, \ where \ \# \ Testset = \# \ Win + \# \ Tie + \# \ Lose
Model
GPT-4
Responses 2개 2번 pass 태워서 둘 다 선호면 Win, 둘 다 비선호면 Lose,그렇지 않으면 Tie
GPT-4가 다른 모델에 비해서 verbosity bias (긴 답변을 선호하는 현상)가 완화되어었기 때문에 선택했다고 함

3. Main Results

→ SFT dataset별로 top-k threshold는 다르지면 response 긴 top-k로만 SFT 했을때 더 선호도(helpfulness, relevance, accuracy)가 높은 답변을 생성함
→ 같은 개수의 Diversity나 Quality로 selection해서 SFT한것보다도 선호도(helpfulness, relevance, accuracy)가 더 높게 나옴.
→ Shorter response top-k로 SFT하면 선호도(helpfulness, relevance, accuracy)가 박살남. (Full과 비교를 했을때)
GPT explanation 설명 뜯어보면 detailed해서 long top-k로 학습한 LM의 response를 더 선호한다고 함.
GPT-4의 verbosity bias때문에 long top-k로 학습한 LM의 response에 더 높은 점수를 더 준게 아니다.
(왜냐? GPT-4가 reasoning path를 주었기 때문에)
길이에 대한 penalty를 evaluation prompt를 주면 94.17% 일치를 보인다고 함
→ Benchmark에서도 실험결과를 공유
Long-Form, ELI5처럼 response generation task에서 성능 좋은건 Instruction Following Task의 일화이니 이전의 결과와 일치
Full SFT에서 MMLU, BBH score vanilla에 비해서 감소
Longest top-k로 SFT시 성능 vanilla에 비해서 성능 증가
(왜 그런지 대해서는 reasoning을 하지 X)