Search

Retrieval-Augmented Data Augmentation For Low-Resource Domain Task

Category
PaperReview
Venue
ARXIV
Backbone
LLM-7B
T5
Text
- Low-Resource Domain Task의 Training Instance를 Augmentation할 수 있는 방법론 - LLM의 representation power가 뛰어나도 가지고 있는 Training Instance에 Sampling Bias가 있으면 Augmentation이 효과적으로 일어날 수 없음을 지적 - 이를 해결하기 위해 저자들은 External DataBase를 도입해 Augmentation의 Diversity를 도모 → 하지만 검증에 있어서의 아쉬움 + LLM의 Parameter KG와 Training Instance의 연관성에 대한 고려 X
PPT

1. Introduction

Fine-Tuning은 smale~large scale LM에 모두 효용성을 보임
문제상황: Low-Resource Task에서 FT를 하기에는 Training Instance가 부족함
적은 Training Instance로 data augmentation을 하는 것은 다음의 한계가 있음
(1) poor diversity
(2) poor variation
→ 즉, LLM의 Representation Power는 뛰어나지만 풀고자하는 Low-Resource Task의 Training sample이Sampling bias되어있을 경우, LLM Representation Power로 Diversity가 보장된 Augementation이 수행되지 않을 수 있다는 한계를 논문에서 지적함.
→ 어떻게 하면
Training data와 Align하면서
Diversity도 보장하는
Data Augmentation 기법을 고안할 수 있을까?
가 해당 work의 main contribution임

2. Method

D={(xi,yi)}i=1ND=\{(x_{i}, y_{i})\}_{i=1}^N
C={(xi,yi)}C=\{(x_{i}, y_{i})\}
적은 개수의 D를 활용해서 relevant한 C를 retrieve하자!
In-Context Learning으로 Data Augmentation을 할 것임!

2.1. Retrieval for In-Context Learning

{ci}i=1k=Retriever(q,C) where qD\{c_{i}\}_{i=1}^k=Retriever(q,C) \ where \ q \in D
q = input-question
DPR을 활용해 q와 관련있는 (Context, Input, Output) 찾기

2.2. Retrieval for Target Context

{ci}i=1k=Retriever(q,C) where qD\{c_{i}\}_{i=1}^k=Retriever(q,C) \ where \ q \in D
q = input-question
DPR을 활용해 q와 관련있는 (Context) 찾기
→ 2.1 & 2.2에서 retrieve한 data를 Llama2-chat에 태워서 Data Augmentation

3. Experimental Results

T5-base Results
Seed (10/30/100) + External로 FT하는 것보다 LLM(7B) representation power 활용해 relevant data augment해서 FT하는게 확실히 성능향상에 도움이 되더라
Random Select (Augment w/ Seed Data)는 제한적인 도움만 됨
Llama2 Results
MMLU는 external data로 직접 FT하는거랑 seed data 활용해서 relevant한거 retrieve한 후 data augmentation해서 새롭게 만들어서 FT하는거랑 큰 차이가 없음 (그래도 조금 더 좋다)
이게 가능한건 Llama2-chat이 CS/Biology/LAW를 알고 있어야 가능한거 아님?
Seed Data X100까지 Data Augmentation 효과 유지

4. Conclusion

Low-Resource Domain Task를 잘 FT 시키기 위한 Data Augmentation 제시
FT에 대한 KG가 LM에 얼마나 Parameterized되어있냐에 대한 검증은 하지 않음
방법론에 대한 구체적인 설명이 제시되지 않아서 아쉬움