Rethinking Data Selection for Supervised Fine-Tuning

1. Introduction

Superficial Alignment Hypothesis

: LLMs은 pre-training phase때 knowledge를 학습하고, SFT는 style-learning이다. (LIMA에서 처음 제안)

: SFT is all about style learning of formatting the response in a human-like manner

Two major principles are adopted for the selection of the SFT dataset.

quality

diversity

⇒ 2가지 기준은 pre-LLM 시대때부터 통용되던 기준, SFT의 Superficial Alignment Hypothesis를 고려할 때 제대로된 selection 기준일까?

무엇이 human-like manner response를 generation하기 위한 SFT dataset selection 기준일까?

⇒ LLM에게 SFT phase에서 ‘프랑스의 수도는 파리다’라는 것을 학습시킬 이유는 없다.

⇒ human style처럼 대답시키는 것을 학습시키면 된다.

⇒ 그렇다면, human style이 무엇일까? : 인간처럼 길게 대답하는것을 human style이라고 heuristic하게 정의함

•

longer version answer가 더 많은 detail을 가지고 있을것이라는 가정

•

인간이 보통 longer한 response에 더 많은 detail들을 포함시키기 때문에

2. Method

•

(xi,yi)∈D(x_{i},y_{i}) \in D(xi​,yi​)∈D

•

D′∈DD' \in DD′∈D

•

Want to prove that MD′M_{D'} MD′​ shows the superior instruction following capability than MDM_{D} MD​ evaluated on some open-ended instruction test sets.

⇒

|{y_{i}}|

가 긴 datum 선정해 top longest responses top-k로 SFT하는게 방법론의 전부

#### RQ: Length based Selection이 Quality, Diversity보다 좋을까?

Training Dataset

•

Alpaca-52K

•

WizardLM-70K

•

Dolly-15K

Backbone

•

LLAMA-2-7B

Baselines

•

Full dataset

•

Random selection

•

Quality based (GPT-3 Turbo Prompting → Likert scale)

•

Diversity based (Llama2 hidden → AVG Pool → K-means 100 Clusters → Sampling)

Evaluations

•

Dataset

◦

Self-Instruct

◦

Vicuna

◦

Koala

◦

Wizard LM

◦

LIMA

•

Metric

\frac{\# \ Win - \# \ Lose}{\# \ Testset} + 1, \ where \ \# \ Testset = \# \ Win + \# \ Tie + \# \ Lose

•

Model

◦

GPT-4

▪

Responses 2개 2번 pass 태워서 둘 다 선호면 Win, 둘 다 비선호면 Lose,그렇지 않으면 Tie

▪

GPT-4가 다른 모델에 비해서 verbosity bias (긴 답변을 선호하는 현상)가 완화되어었기 때문에 선택했다고 함

3. Main Results

→ SFT dataset별로 top-k threshold는 다르지면 response 긴 top-k로만 SFT 했을때 더 선호도(helpfulness, relevance, accuracy)가 높은 답변을 생성함

→ 같은 개수의 Diversity나 Quality로 selection해서 SFT한것보다도 선호도(helpfulness, relevance, accuracy)가 더 높게 나옴.

→ Shorter response top-k로 SFT하면 선호도(helpfulness, relevance, accuracy)가 박살남. (Full과 비교를 했을때)

•

GPT explanation 설명 뜯어보면 detailed해서 long top-k로 학습한 LM의 response를 더 선호한다고 함.

◦

GPT-4의 verbosity bias때문에 long top-k로 학습한 LM의 response에 더 높은 점수를 더 준게 아니다.

(왜냐? GPT-4가 reasoning path를 주었기 때문에)

◦

길이에 대한 penalty를 evaluation prompt를 주면 94.17% 일치를 보인다고 함

→ Benchmark에서도 실험결과를 공유

•

Long-Form, ELI5처럼 response generation task에서 성능 좋은건 Instruction Following Task의 일화이니 이전의 결과와 일치

•

Full SFT에서 MMLU, BBH score vanilla에 비해서 감소

•

Longest top-k로 SFT시 성능 vanilla에 비해서 성능 증가

(왜 그런지 대해서는 reasoning을 하지 X)