1. Introduction
•
Fine-Tuning은 smale~large scale LM에 모두 효용성을 보임
•
문제상황: Low-Resource Task에서 FT를 하기에는 Training Instance가 부족함
•
적은 Training Instance로 data augmentation을 하는 것은 다음의 한계가 있음
(1) poor diversity
(2) poor variation
→ 즉, LLM의 Representation Power는 뛰어나지만 풀고자하는 Low-Resource Task의 Training sample이Sampling bias되어있을 경우, LLM Representation Power로 Diversity가 보장된 Augementation이 수행되지 않을 수 있다는 한계를 논문에서 지적함.
→ 어떻게 하면
•
Training data와 Align하면서
•
Diversity도 보장하는
Data Augmentation 기법을 고안할 수 있을까?
가 해당 work의 main contribution임
2. Method
•
적은 개수의 D를 활용해서 relevant한 C를 retrieve하자!
•
In-Context Learning으로 Data Augmentation을 할 것임!
2.1. Retrieval for In-Context Learning
•
•
q = input-question
•
DPR을 활용해 q와 관련있는 (Context, Input, Output) 찾기
2.2. Retrieval for Target Context
•
•
q = input-question
•
DPR을 활용해 q와 관련있는 (Context) 찾기
→ 2.1 & 2.2에서 retrieve한 data를 Llama2-chat에 태워서 Data Augmentation
3. Experimental Results
•
T5-base Results
◦
Seed (10/30/100) + External로 FT하는 것보다 LLM(7B) representation power 활용해 relevant data augment해서 FT하는게 확실히 성능향상에 도움이 되더라
◦
Random Select (Augment w/ Seed Data)는 제한적인 도움만 됨
•
Llama2 Results
◦
MMLU는 external data로 직접 FT하는거랑 seed data 활용해서 relevant한거 retrieve한 후 data augmentation해서 새롭게 만들어서 FT하는거랑 큰 차이가 없음 (그래도 조금 더 좋다)
◦
이게 가능한건 Llama2-chat이 CS/Biology/LAW를 알고 있어야 가능한거 아님?
•
Seed Data X100까지 Data Augmentation 효과 유지
4. Conclusion
•
Low-Resource Domain Task를 잘 FT 시키기 위한 Data Augmentation 제시
•
FT에 대한 KG가 LM에 얼마나 Parameterized되어있냐에 대한 검증은 하지 않음
•
방법론에 대한 구체적인 설명이 제시되지 않아서 아쉬움