Retrieval-Augmented Data Augmentation For Low-Resource Domain Task

1. Introduction

•

Fine-Tuning은 smale~large scale LM에 모두 효용성을 보임

•

문제상황: Low-Resource Task에서 FT를 하기에는 Training Instance가 부족함

•

적은 Training Instance로 data augmentation을 하는 것은 다음의 한계가 있음

(1) poor diversity

(2) poor variation

→ 즉, LLM의 Representation Power는 뛰어나지만 풀고자하는 Low-Resource Task의 Training sample이Sampling bias되어있을 경우, LLM Representation Power로 Diversity가 보장된 Augementation이 수행되지 않을 수 있다는 한계를 논문에서 지적함.

→ 어떻게 하면

•

Training data와 Align하면서

•

Diversity도 보장하는

Data Augmentation 기법을 고안할 수 있을까?

가 해당 work의 main contribution임

2. Method

D=\{(x_{i}, y_{i})\}_{i=1}^N

C=\{(x_{i}, y_{i})\}

•

적은 개수의 D를 활용해서 relevant한 C를 retrieve하자!

•

In-Context Learning으로 Data Augmentation을 할 것임!

2.1. Retrieval for In-Context Learning

•

{ci}i=1k=Retriever(q,C) where q∈D\{c_{i}\}_{i=1}^k=Retriever(q,C) \ where \ q \in D{ci​}i=1k​=Retriever(q,C) where q∈D

•

q = input-question

•

DPR을 활용해 q와 관련있는 (Context, Input, Output) 찾기

2.2. Retrieval for Target Context

•

{ci}i=1k=Retriever(q,C) where q∈D\{c_{i}\}_{i=1}^k=Retriever(q,C) \ where \ q \in D{ci​}i=1k​=Retriever(q,C) where q∈D

•

q = input-question

•

DPR을 활용해 q와 관련있는 (Context) 찾기

→ 2.1 & 2.2에서 retrieve한 data를 Llama2-chat에 태워서 Data Augmentation

3. Experimental Results

•

T5-base Results

◦

Seed (10/30/100) + External로 FT하는 것보다 LLM(7B) representation power 활용해 relevant data augment해서 FT하는게 확실히 성능향상에 도움이 되더라

◦

Random Select (Augment w/ Seed Data)는 제한적인 도움만 됨

•

Llama2 Results

◦

MMLU는 external data로 직접 FT하는거랑 seed data 활용해서 relevant한거 retrieve한 후 data augmentation해서 새롭게 만들어서 FT하는거랑 큰 차이가 없음 (그래도 조금 더 좋다)

◦

이게 가능한건 Llama2-chat이 CS/Biology/LAW를 알고 있어야 가능한거 아님?

•

Seed Data X100까지 Data Augmentation 효과 유지

4. Conclusion

•

Low-Resource Domain Task를 잘 FT 시키기 위한 Data Augmentation 제시

•

FT에 대한 KG가 LM에 얼마나 Parameterized되어있냐에 대한 검증은 하지 않음 

•

방법론에 대한 구체적인 설명이 제시되지 않아서 아쉬움