1. Introduction
•
In-Context Learning에서 demonstration을 매 test instance inference마다 prepend해서 forwarding해주는 것은 computational overhead를 야기한다.
→ Extensive Demonstration (Natural Language) → Vector로 distillation하는 방법이 많이 활용됨
1.
Prompt Tuning
: Demonstration 역할을 해줄 수 있는 Vector Embedding을 Gradient Descent로 Training
(Unseen Demonstration을 prepend해야하는 상황에 직면한 경우 또 update를 해줘야하는 문제점 발생)
2.
Hypernetwork
: LLM에 직접 삽입되는 Vector (e.g., Word Embedding)을 생성하는 또다른 network를 학습
(긴 Unseen Demonstration도 Hypernetwork를 통과하면 pre-defined 길이의 vector embedding으로 mapping됨, CLM objective를 사용해 Distillation하는 Hypertuning이 가장 대표적)
•
위의 방법론들은 efficient하게 long natural language demonstration을 pre-defined length vector로 줄여서 ICL을 가능하게 만드나, long natural language demonstration을 직접 사용하는 것 대비 effectiveness가 떨어진다는 한계가 있다고 논문에서 제시함
•
논문에서는 KG distillation 방법론을 차용해 efficieny(긴 demonstration을 짧은 vector로 mapping하는 network를 학습)와 effectivenss(어떤 demonstration이라도 informative한 정보만 extracting할 수 있는 network를 학습)를 모두 달성하는 ‘Meta dEmonstratioN Distillation’을 제시
2. Problem Denfinition
•
Demonstration: →
•
ICL Performance
◦
•
Our goal
◦
◦
•
Prompt Tuning
◦
→ learnable parameters
•
MEND (Hypernetwork)
◦
(limitation of current hyper network: compatibility issue with LLM → resulting suboptimal quality of distilled vector)
3. Methods
•
MEND를 학습시키기 위해서는 3개의 LM이 필요함
◦
MEND: Demonstration을 Vector로 mapping하는 Model
▪
MEND Model에 길이만큼인 l개의 special token을 추가해 demonstration distillation placholder로 작용하도록 함
(For any demonstration , these placeholders embedding are appended to the demonstration embedding )
◦
Student Model & Teacher Model: KG Distillation Loss를 위해 instantiate 되어야 하는 모델
#### 3.1. KG Distillation
•
•
Distilled Vector로 Condition된 ICL Performance를 Natural Language로 Condition된 ICL Performance만큼 나오게 만드는 것
•
◦
Student는 MEND Vector Distilled Demonstraiton Condition
◦
Teacher는 Natural Language Demonstration Condition
#### 3.2 OPTIMIZATION
•
Meta-distillation Pretraining (MEND Network Pre-training)
◦
C4 text
▪
demonstration: 1024* (e.g., 102)
▪
input: 1024* (e.g., 922)
◦
input문장의 continuation한 생성문에 대해서 계산
: conditional language modeling 기반 demonstration → vector로 compressing하는 모델에 비해서 더 instrinsic한 attribute를 capture할 수 있음.
•
Meta-distillation Fine-Tuning (Training MEND Network for ICL Prediction)
◦
META-ICL data로 FT
▪
K+1개 pair의 demonstration examples가 주어졌을때
▪
demonstration:
▪
input:
◦
: LM이 distilled된 demonstration으로 ICL를 수행할 수 있게 MEND를 Training
•
Final Loss
◦