Search

LANGBRIDGE: Multilingual Reasoning Without Multilingual Supervision

Category
PaperReview
Venue
ACL 2024
Backbone
LLAMA2
MetaMath
ORCA
Text
- multilingual encoder, strong decoder llm을 결합해 low-resource reasoning capabilities를 향상시킨 논문 (VLM 구조 차용) - 하지만, 성능향상의 kick은 english-cot 생성에 있다!
PPT

1. Introduction

LLM은 low-resource language에서 reasoning 성능이 떨어지며, 이를 해결하기 위해 일반적으로 English-centric LM에 target low-resource language를 학습시키는 방법을 채택
⇒ 이미 domain-specific datasets으로 학습한 MetaMath, Orca2같은 경우 CL적용 더욱 어려움
위 논문에서는 LM에서 multilingual reasoning abilities를 adapt하기 위한 방법론 제안
(multilingual data 활용 x, VLM에게 영감을 받아 multilingual encoder, LLM decoder를 결합하는 방식으로)
특히 LangBridge 설계의 기본 가설을 ‘language-agnostic characteristics of multilingual representations’로 두고 어떤 source의 language든 LM input space로 mapping시키면 reasoning abilities를 활용시킬 수 있다고 저자들은 생각한다.

2. Related Work

English-centric Language Models

ACL 2024 당시만 하더라도 (현재도 Test-time computing과 reflexion등의 도입만 있지) LLM의 reasoning 성능은 English LM에서 주를 이루고 있다.
(MethaMath, Orca2도 마찬가지)
High-Resource Language (HRL)과 Low-Resource Language (LRL)간의 discrepancy를 어떻게 줄여나갈까가 결국엔 관건

Zero-shot Cross-lingual Transfer

(Fine-tuning이후에도 유지되는) Multilingual Model의 cross-lingual transfer capabilities를 이용하겠다.

Aligning Pretrained Representations

Independent한 2개의 representation을 align해 additive한 performance gain을 내는 방법에서 idea를 착안한다. (VLM, model merging?)

3. LANGBRIDGE

Hypothesis

이전 연구들에 따르면, multilingual encoder는 language-agnostic characteristic을 가지고 있어 zero-shot cross lingual transfer가 용이하다고 한다.
(결국 이말은 semantic만 같다며 A언어, B언어로 각 forwarding한 representation이 비슷한 위치에 있다는건데)
위의 가정들을 이어가보면 ⇒ language-agnostic한 representation들을 LM decoder에 밀어넣고 align시킬 수만 있다면, mulitlingual data가 아닌 소량의 english data만으로도, 두 model 간의 semantic space align이 가능하다.

Model Architecture

multilingual encoder로 prompt-tuning의 soft-prompt를 만들어준다고 생각하면 된다 (비유상 그렇게 받아들이자)
1.
Xenc+[EOS]X_{enc}+[EOS] (padding if necessary) → multilingual encoder → hidden representation
2.
hidden representation → trainable linear layer (dimension match) → HencH_{enc}
3.
HencH_{enc} (+ masking for padded tokens) → LM → XlmX_{lm}
NLL objective function
p(XlmXenc)=iLp(xiXenc,x<i)p(\mathbf{X}_{lm}|\mathbf{X}_{enc}) = \prod_{i}^{L} p(x_i|\mathbf{X}_{enc}, \mathbf{x}_{<i})

4. Main Experiments

Experimental Settings

task: (1) mathematical reasoning, (2) code completion, (3) logical reasoning, (4) commonsense reasoning.
Llama2 pre-training corpus에서 0.1% 이하를 underrepresented 데이터라고 명명
(7B + 2B Enc) (13B + 2B,7B Enc)로 실험
English only training data로 LangBridge를 continual training 진행
BaseLM
ENC-LM 결합시키고 unlabeled corpus로 학습
e.x.) Llemma (Llama2-CL model)이 LM일 경우 Llemma의 corpus인 proof-pile-2로 continual learning
SFTLM
ENC-LM 결합시키고 labeled corpus로 학습
e.x.) MetaMath (Llama2-SFT model)이 LM일 경우 MetaMath의 corpus인 MetaMathQA (or the closest open corpus)로 sft learning
training instances는 200,000으로 고정
→ XCOPA (CSR)로만 ablation한건데 절반정도면 성능은 saturate point에 도달한다고 함
inference time에 robustness 확보를 위해 diverse input으로 training

Mathematical Reasoning

MSGM으로 평가
multilingual base lm, msgm-sft lm (mathotopus) baseline에 포함
BASE-LM기반은 FS, SFT-LM기반은 ZS
multilingual q가 들어가더라도 rationale은 english로 생성하는 (NATIVE-EXEMPLARS + EN-COT) setting 차용 ⇒ 사실 이래서 성능이 잘나온듯
Llama 2, Llemma, MetaMath다 LRL에서 성능하락이 큼, multilingual base lm들도 Llama 2보다 LRL에서 성능이 안좋음
LangBridge가 LRL의 성능을 HRL에 comparable하게 끌어올리지만 HRL의 성능을 하락시킴. 논문에서 내놓은 conjecturese들은 아래와 같음
1.
HRL는 기존 LM의 embedding layer에서 representation이 출발하는것보다 soft prompt에서 출발했기 때문에 성능이 하락할 수 있다.
2.
HRL이 pretraining된 setting과 LangBridge(in-out=1024-128)이 다르기 때문에 HRL에서 성능하락이 발생할 수 있다.
⇒ distribution mismatch
3.
Fix hyperparameters for all experiments

Code Completion

HumanEval 및 번역본인 HumanEval-MT으로 평가
GPT-4의 평가도 좋고, BLOOM corpus에도 들어가 5가지 언어에 대해서 직접 번역해 HumanEval-MT 제작
function name 비식별화
Code Llama의 corpus인 starcoder를 training corpus로 활용, BLOOM, LangBridge CL에 활용
LangBridge가 underrepresened language에서 우수한 성능, 9B는 code-llama-13B에 필적하는 성능

Logical Reasoning

Big-Bench Hard (BBH)와 Big-Bench Hard Bengali (BBH-BN)로 평가
Orca2의 open-source version corpus인 open-orca를 sampled한 후 training corpus로 활용, BLOOM, LangBridge CL에 활용
BLOOM 그자체로는 multilingual reasoning이 안되어서 baseline에서 제외하였고, 그 외의 결과는 이전 추이와 비슷함

5. Analysis

PCA & Parellel Corpus
LangBridge의 가장 core한 가설은 ‘multilingual encoders가 language-agnostic한 representation을 만들 수 있다’에서 시작된다.
이게 사실이라면, LM에 따로 languagespecific features를 주입할 필요가 없고 현재 실험이 진행된것처럼 HRL로 CL을 진행하면 된다.
이를 위해 parallel corpus FLORES를 활용해 ORCA, ORCA-LANGBRIDGE의 output representation → mean pooling의 PCA 결과를 찍어보어봄
ORCA는 HRL는 몰려있고, LRL는 떨어져 있는 반면 LANGBRIDGE는 모든 언어가 single cluster를 이루고 있음
Accidental Translations
cross-transfer setting이다보니 soft-prompt ⇒ eng cot로 반환해야하는데, Bengali를 soft prompt로 반환하는 과정후 forward하는 과정에서 (chinese embedding layer와 비슷했던거 같음) chinese를 output하는 accident가 존재했다고 함
(그렇게 많은 case는 아니었다고 8/178)

6. Conclusion

해당 연구실에서 중요하게 생각하는 keyword인 ‘language agnostic representation’을 low-resource reasoning이라는 topic에 잘 녹인 연구라고 생각
다만 논문에서도 언급했듯이 이게 진정한 ‘Multilingual CoT Capabilities?’라고 반문한다면 그렇다고는 하지 못함. 결국 성능향상이 가능했던 이유는 baseLM이 English CoT를 생성했기 때문이기에 향후 발전은 어떻게 baseLM이 LRL-CoT를 생성하면서 성능을 올릴 수 있는가에 집중해야할 듯 하다.