1. Introduction
→ Language Model을 Fine-tuning하기 위해서는 정형화된 데이터를 자연어로 된 데이터로 변형시켜야 한다.
실제로 B2C기업의 conversational model을 학습하기 위한 첫걸음은 db에 있는 관련 product 항목들에 관련한 데이터들을 natural language로 변환하는 작업이다.
→ 정형화된 데이터를 자연어로 변형시키는 task를 data-to-text generation task라고 정의하는데, 최근까지 해당 task는 무료로 제공된 dataset(WebNLG, ToTTo)에 상당히 의존해왔다.
→ 이런 의존성은 2가지 motivation을 야기한다.
1.
좋은 data-to-text generation을 달성하기 위해서는 많은 양의 fine-tuning 데이터가 필요하며, out-of-domain (pre-train때 상대적으로 덜 본 corpus에 대해서)의 성능을 끌어올리기 위해서는 더 많은 데이터가 필요하다.
2.
data-to-text generation으로 fine-tuning한 model은 error prone하다.
a.
structured data와 contradict가 있거나 (파란색, 셔츠, 3) - 셔츠 색상이 3개다.
b.
hallucination (structured data에 없는 내용을 기반으로 generation)
c.
etc
→ 이를 해결하기 위해서는
1.
Input data에 faithful한 text를 생성할 수 있는 model 있어야 하며,
2.
Output text가 생성되면 Factual Error를 detect를 할 수 있는 model도 동시에 존재해야 한다.
→ 이전 연구들은 전부 human-level performance를 내기 위해 몇십만개의 data-to-text의 pair dataset이 있다는 가정을 두고 실험을 진행했고, 2.인 Fact verification model이 일정 수준이상의 성능을 내기 위해서는 100K이상의 데이터셋이 이상이 필요하다고 이야기 하고 있다.
→ 하지만 WebNLG같은 domain-specific corpora 같은 경우에는 20,000개 pair밖에 되지 않고, 실제로는 이보다는 더 구하기 어려운 경우가 많다.
→ 이에 본 연구에서는 low-resource setting에서, 기존 연구들이 망각했던 faithful한 data-to-text generation을 위해서는 동일한 pair안에 있는 data와 text간의 consistency를 높히는 방향으로의 training 기법을 적용함으로써 효율성 높은 Faithful Low-Resource Data-to-Text Generation 방법론을 제시한다.
2. Related Work
→ Low-Resource Problems in data-to-text generation
•
LLMs을 가지고 WebNLG, DART, ToTTo, WikiTableT 데이터(primary Wikipedia domain)에 Training후 e-commerce(out-of-domain)에 inference하면 성능이 안좋음
•
따라서 쉽게 data-to-text generate하는 방법이나 unsupervised 방법으로 모델을 학습시킬 방법이 필요하다.
•
기존에는 GPT-3 api나 IR 방법에 의존해서 augmententation 후 supervised learning에 활용
→ Cycle to Text (Back Translation)
•
주어진 입력과 동일한 출력 반환하도록 학습시키는 학습 방법
•
NLP Area에서 Back Translation으로 많이 활용되어왔고, Full Sentence에서 Entity를 추출해서 아래와 같이 활용되어온 적이 있는데 Entity
Full Sentence의 Semantic이 1:1 mapping이 안되는 경우 cycle training읗 적용할 수가 없음.
•
Keyword (Entity) → Natural Language Sentence → Keyword (Entity)
(동일한 Entitiy를 가진 문장이 여러개라서 제한적임 ex. 포항공대, 권원빈, 미남 → 포항공대의 권원빈은 미남이라고 알려졌다. 포항공대의 권원빈은 미남인가?)
•
CycleGT Review
•
Graph to Text: Encoder Input: <Head>, <Edge>, <Tail> Decoder Output: Text
•
Text to Graph: Encoder Input: Text Decoder Output: NER(Text) (i.e., Entity) & C(Ner(Text)i,Ner(Text)j) (i.e., relation between two entities)
→ NER system에 의해서 제대로 인식이 못될 수도 있다고 지적하면서 본 연구에서는 보다 쉽고 간결한 방식으로 structured data를 입력으로 집어넣는 training 전략을 제안
3. Method
•
Formulation
◦
D_pr
Subject, Predicate, Object
[['Abner_W._Sibal | battle | World_War_II',
'World_War_II | commander | Chiang_Kai-shek',
'Abner_W._Sibal | militaryBranch | United_States_Army']]},
Plain Text
복사
◦
T_pr
['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.',
'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.',
'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']}
Plain Text
복사
•
D랑 T가 (domian 겹침에 상관없이) Pair로 없이 각각 있다면 unpaired라고 한다.
•
F는 D→T모델 R는 T→D모델이다.
•
DTD Cycle (50 Epochs)
◦
Input: Generate in English: [S] Subject [P] Predicate [O] Object
◦
Intermediate Output: Text
◦
Final Output: Reconstruct data
◦
Freeze F & Train R
•
TDT Cycle (50 Epochs)
◦
Input: Extract Triples: Text
◦
Intermediate Output: [S] Subject [P] Predicate [O] Object
◦
Final Output: Reconstruct Text
◦
Freeze R & Train T
#### Baselines
•
Fully supervised fine-tuning
◦
data-to-text (pair supervised fine-tuning)
•
Low-resource fine-tuning
◦
data-to-text (pair supervised fine-tuning with 100 samples)
•
Low-resource fine-tuning with additional pre-training
◦
data-to-text (pair supervised fine-tuning with 100 samples)
◦
low-resource fine-tuning에 앞서 in-domain test set에 대한 confidence를 높게 형성시켜주기 위해 in-domain text (train set으로 예상)으로 continual pre-training
#### Our Method
•
Unsupervised cycle training
◦
unpaired set으로 cycle training만 적용
•
Low-resource cycle training
◦
data-to-text (pair supervised fine-tuning with 100 sample)
◦
low-resource R이랑 T를 supervised fine-tuning후 cycle training
4. Results
#### Main Results
•
Metric
◦
Lexical
▪
Rouge
▪
BLEU
▪
METEOR
▪
PARENT
◦
Semantic
▪
BERT SCORE
→ Cycle Training은 diverse (not unique predicate) text와 structured data로 일반화 성능을 끌어올려야 하는데 E2E나 WSQL 데이터셋은 unique predicate이 많이 없었다. 따라서 최소한의 annotated pair로 mapping 능력을 학습시켜주면 Cycle training의 이점을 극대화 시켜줄 수 있다.
#### Overlapping Pair
→ Structured Data랑 Pair Overlap이 얼마나 이루고 있는 Text 데이터를 가지고 Cycle Training 하느냐에 따라서 성능 변화가 어떻게 바뀌느냐에 따른 Ablation Study.
→ 50%의 WebNLG Triplet을 Random하게 Sample, 관련 없는 Pair Text 0% → 100%로 실험
•
50%는 관련된 Pair가 있으면 좋다.
#### Human Evaluation
→ Human Evaluation Schema 적용
•
Count of Factual Errors (2 Domain Expert)
◦
Input Data(Subject, Predicate, Object)에 있는 내용을 가져왔는데 잘못 가져왔는데 잘못 가져온 경우
•
Count of Hallucination Errors (2 Domain Expert)
◦
Input Data(Subject, Predicate, Object)에 없는 내용을 기반으로 text를 생성하는 경우
•
Count of Information Miss (2 Domain Expert)
◦
생성된 text가 Input Data의 predicate를 제대로 표현하지 못할 경우
•
Fluency Preference (Crowd-Source)
◦
Grammer, Structure, Coherency
→ human evaluation of errors and information coverage correlates better with the PARENT score, which confirms PARENT’s capability of measuring faithfulness.
→ It is also evident from the annotation results that all three evaluated data-to-text generation models are more likely to make hallucination errors over factual errors, which calls for more future effort to alleviate hallucinations. In terms of the generated texts’ fluency, lowresource cycle training is able to improve over the low-resource fine-tuning method but still cannot consistently beat the fully-supervised approach.