1. Introduction
•
LLM은 low-resource language에서 reasoning 성능이 떨어지며, 이를 해결하기 위해 일반적으로 English-centric LM에 target low-resource language를 학습시키는 방법을 채택
⇒ 이미 domain-specific datasets으로 학습한 MetaMath, Orca2같은 경우 CL적용 더욱 어려움
•
위 논문에서는 LM에서 multilingual reasoning abilities를 adapt하기 위한 방법론 제안
(multilingual data 활용 x, VLM에게 영감을 받아 multilingual encoder, LLM decoder를 결합하는 방식으로)
•
특히 LangBridge 설계의 기본 가설을 ‘language-agnostic characteristics of multilingual representations’로 두고 어떤 source의 language든 LM input space로 mapping시키면 reasoning abilities를 활용시킬 수 있다고 저자들은 생각한다.
2. Related Work
English-centric Language Models
•
ACL 2024 당시만 하더라도 (현재도 Test-time computing과 reflexion등의 도입만 있지) LLM의 reasoning 성능은 English LM에서 주를 이루고 있다.
(MethaMath, Orca2도 마찬가지)
•
High-Resource Language (HRL)과 Low-Resource Language (LRL)간의 discrepancy를 어떻게 줄여나갈까가 결국엔 관건
Zero-shot Cross-lingual Transfer
•
(Fine-tuning이후에도 유지되는) Multilingual Model의 cross-lingual transfer capabilities를 이용하겠다.
Aligning Pretrained Representations
•
Independent한 2개의 representation을 align해 additive한 performance gain을 내는 방법에서 idea를 착안한다. (VLM, model merging?)
3. LANGBRIDGE
Hypothesis
•
이전 연구들에 따르면, multilingual encoder는 language-agnostic characteristic을 가지고 있어 zero-shot cross lingual transfer가 용이하다고 한다.
(결국 이말은 semantic만 같다며 A언어, B언어로 각 forwarding한 representation이 비슷한 위치에 있다는건데)
•
위의 가정들을 이어가보면 ⇒ language-agnostic한 representation들을 LM decoder에 밀어넣고 align시킬 수만 있다면, mulitlingual data가 아닌 소량의 english data만으로도, 두 model 간의 semantic space align이 가능하다.
Model Architecture
•
multilingual encoder로 prompt-tuning의 soft-prompt를 만들어준다고 생각하면 된다 (비유상 그렇게 받아들이자)
1.
(padding if necessary) → multilingual encoder → hidden representation
2.
hidden representation → trainable linear layer (dimension match) →
3.
(+ masking for padded tokens) → LM →
•
NLL objective function
4. Main Experiments
Experimental Settings
•
task: (1) mathematical reasoning, (2) code completion, (3) logical reasoning, (4) commonsense reasoning.
•
Llama2 pre-training corpus에서 0.1% 이하를 underrepresented 데이터라고 명명
•
(7B + 2B Enc) (13B + 2B,7B Enc)로 실험
•
English only training data로 LangBridge를 continual training 진행
◦
BaseLM
▪
ENC-LM 결합시키고 unlabeled corpus로 학습
▪
e.x.) Llemma (Llama2-CL model)이 LM일 경우 Llemma의 corpus인 proof-pile-2로 continual learning
◦
SFTLM
▪
ENC-LM 결합시키고 labeled corpus로 학습
▪
e.x.) MetaMath (Llama2-SFT model)이 LM일 경우 MetaMath의 corpus인 MetaMathQA (or the closest open corpus)로 sft learning
•
training instances는 200,000으로 고정
→ XCOPA (CSR)로만 ablation한건데 절반정도면 성능은 saturate point에 도달한다고 함
•
inference time에 robustness 확보를 위해 diverse input으로 training
Mathematical Reasoning
•
MSGM으로 평가
◦
multilingual base lm, msgm-sft lm (mathotopus) baseline에 포함
•
BASE-LM기반은 FS, SFT-LM기반은 ZS
•
multilingual q가 들어가더라도 rationale은 english로 생성하는 (NATIVE-EXEMPLARS + EN-COT) setting 차용 ⇒ 사실 이래서 성능이 잘나온듯
•
Llama 2, Llemma, MetaMath다 LRL에서 성능하락이 큼, multilingual base lm들도 Llama 2보다 LRL에서 성능이 안좋음
•
LangBridge가 LRL의 성능을 HRL에 comparable하게 끌어올리지만 HRL의 성능을 하락시킴. 논문에서 내놓은 conjecturese들은 아래와 같음
1.
HRL는 기존 LM의 embedding layer에서 representation이 출발하는것보다 soft prompt에서 출발했기 때문에 성능이 하락할 수 있다.
2.
HRL이 pretraining된 setting과 LangBridge(in-out=1024-128)이 다르기 때문에 HRL에서 성능하락이 발생할 수 있다.
⇒ distribution mismatch
3.
Fix hyperparameters for all experiments
Code Completion
•
HumanEval 및 번역본인 HumanEval-MT으로 평가
◦
GPT-4의 평가도 좋고, BLOOM corpus에도 들어가 5가지 언어에 대해서 직접 번역해 HumanEval-MT 제작
◦
function name 비식별화
•
Code Llama의 corpus인 starcoder를 training corpus로 활용, BLOOM, LangBridge CL에 활용
•
LangBridge가 underrepresened language에서 우수한 성능, 9B는 code-llama-13B에 필적하는 성능
Logical Reasoning
•
Big-Bench Hard (BBH)와 Big-Bench Hard Bengali (BBH-BN)로 평가
•
Orca2의 open-source version corpus인 open-orca를 sampled한 후 training corpus로 활용, BLOOM, LangBridge CL에 활용
•
BLOOM 그자체로는 multilingual reasoning이 안되어서 baseline에서 제외하였고, 그 외의 결과는 이전 추이와 비슷함
5. Analysis
•
PCA & Parellel Corpus
◦
LangBridge의 가장 core한 가설은 ‘multilingual encoders가 language-agnostic한 representation을 만들 수 있다’에서 시작된다.
◦
이게 사실이라면, LM에 따로 languagespecific features를 주입할 필요가 없고 현재 실험이 진행된것처럼 HRL로 CL을 진행하면 된다.
◦
이를 위해 parallel corpus FLORES를 활용해 ORCA, ORCA-LANGBRIDGE의 output representation → mean pooling의 PCA 결과를 찍어보어봄
◦
ORCA는 HRL는 몰려있고, LRL는 떨어져 있는 반면 LANGBRIDGE는 모든 언어가 single cluster를 이루고 있음
•
Accidental Translations
◦
cross-transfer setting이다보니 soft-prompt ⇒ eng cot로 반환해야하는데, Bengali를 soft prompt로 반환하는 과정후 forward하는 과정에서 (chinese embedding layer와 비슷했던거 같음) chinese를 output하는 accident가 존재했다고 함
(그렇게 많은 case는 아니었다고 8/178)
6. Conclusion
•
해당 연구실에서 중요하게 생각하는 keyword인 ‘language agnostic representation’을 low-resource reasoning이라는 topic에 잘 녹인 연구라고 생각
•
다만 논문에서도 언급했듯이 이게 진정한 ‘Multilingual CoT Capabilities?’라고 반문한다면 그렇다고는 하지 못함. 결국 성능향상이 가능했던 이유는 baseLM이 English CoT를 생성했기 때문이기에 향후 발전은 어떻게 baseLM이 LRL-CoT를 생성하면서 성능을 올릴 수 있는가에 집중해야할 듯 하다.