LANGBRIDGE: Multilingual Reasoning Without Multilingual Supervision

1. Introduction

•

LLM은 low-resource language에서 reasoning 성능이 떨어지며, 이를 해결하기 위해 일반적으로 English-centric LM에 target low-resource language를 학습시키는 방법을 채택

⇒ 이미 domain-specific datasets으로 학습한 MetaMath, Orca2같은 경우 CL적용 더욱 어려움

•

위 논문에서는 LM에서 multilingual reasoning abilities를 adapt하기 위한 방법론 제안

(multilingual data 활용 x, VLM에게 영감을 받아 multilingual encoder, LLM decoder를 결합하는 방식으로)

•

특히 LangBridge 설계의 기본 가설을 ‘language-agnostic characteristics of multilingual representations’로 두고 어떤 source의 language든 LM input space로 mapping시키면 reasoning abilities를 활용시킬 수 있다고 저자들은 생각한다.

2. Related Work

English-centric Language Models

•

ACL 2024 당시만 하더라도 (현재도 Test-time computing과 reflexion등의 도입만 있지) LLM의 reasoning 성능은 English LM에서 주를 이루고 있다.

(MethaMath, Orca2도 마찬가지)

•

High-Resource Language (HRL)과 Low-Resource Language (LRL)간의 discrepancy를 어떻게 줄여나갈까가 결국엔 관건

Zero-shot Cross-lingual Transfer

•

(Fine-tuning이후에도 유지되는) Multilingual Model의 cross-lingual transfer capabilities를 이용하겠다.

Aligning Pretrained Representations

•

Independent한 2개의 representation을 align해 additive한 performance gain을 내는 방법에서 idea를 착안한다. (VLM, model merging?)

3. LANGBRIDGE

Hypothesis

•

이전 연구들에 따르면, multilingual encoder는 language-agnostic characteristic을 가지고 있어 zero-shot cross lingual transfer가 용이하다고 한다.

(결국 이말은 semantic만 같다며 A언어, B언어로 각 forwarding한 representation이 비슷한 위치에 있다는건데)

•

위의 가정들을 이어가보면 ⇒ language-agnostic한 representation들을 LM decoder에 밀어넣고 align시킬 수만 있다면, mulitlingual data가 아닌 소량의 english data만으로도, 두 model 간의 semantic space align이 가능하다.

Model Architecture

•

multilingual encoder로 prompt-tuning의 soft-prompt를 만들어준다고 생각하면 된다 (비유상 그렇게 받아들이자)

Xenc+[EOS]X_{enc}+[EOS]Xenc​+[EOS] (padding if necessary) → multilingual encoder → hidden representation 

 hidden representation → trainable linear layer (dimension match) → HencH_{enc}Henc​

HencH_{enc}Henc​ (+ masking for padded tokens) → LM → XlmX_{lm}Xlm​

•

NLL objective function

p(\mathbf{X}_{lm}|\mathbf{X}_{enc}) = \prod_{i}^{L} p(x_i|\mathbf{X}_{enc}, \mathbf{x}_{<i})

4. Main Experiments

Experimental Settings

•

task: (1) mathematical reasoning, (2) code completion, (3) logical reasoning, (4) commonsense reasoning.

•

Llama2 pre-training corpus에서 0.1% 이하를 underrepresented 데이터라고 명명

•

(7B + 2B Enc) (13B + 2B,7B Enc)로 실험

•

English only training data로 LangBridge를 continual training 진행

◦

BaseLM

▪

ENC-LM 결합시키고 unlabeled corpus로 학습

▪

e.x.) Llemma (Llama2-CL model)이 LM일 경우 Llemma의 corpus인 proof-pile-2로 continual learning

◦

SFTLM

▪

ENC-LM 결합시키고 labeled corpus로 학습

▪

e.x.) MetaMath (Llama2-SFT model)이 LM일 경우 MetaMath의 corpus인 MetaMathQA (or the closest open corpus)로 sft learning

•

training instances는 200,000으로 고정

→ XCOPA (CSR)로만 ablation한건데 절반정도면 성능은 saturate point에 도달한다고 함

•

inference time에 robustness 확보를 위해 diverse input으로 training

Mathematical Reasoning

•

MSGM으로 평가

◦

multilingual base lm, msgm-sft lm (mathotopus) baseline에 포함

•

BASE-LM기반은 FS, SFT-LM기반은 ZS

•

multilingual q가 들어가더라도 rationale은 english로 생성하는 (NATIVE-EXEMPLARS + EN-COT) setting 차용 ⇒ 사실 이래서 성능이 잘나온듯

•

Llama 2, Llemma, MetaMath다 LRL에서 성능하락이 큼, multilingual base lm들도 Llama 2보다 LRL에서 성능이 안좋음

•

LangBridge가 LRL의 성능을 HRL에 comparable하게 끌어올리지만 HRL의 성능을 하락시킴. 논문에서 내놓은 conjecturese들은 아래와 같음

HRL는 기존 LM의 embedding layer에서 representation이 출발하는것보다 soft prompt에서 출발했기 때문에 성능이 하락할 수 있다.

HRL이 pretraining된 setting과 LangBridge(in-out=1024-128)이 다르기 때문에 HRL에서 성능하락이 발생할 수 있다.

⇒ distribution mismatch

Fix hyperparameters for all experiments

Code Completion

•

HumanEval 및 번역본인 HumanEval-MT으로 평가

◦

GPT-4의 평가도 좋고, BLOOM corpus에도 들어가 5가지 언어에 대해서 직접 번역해 HumanEval-MT 제작

◦

function name 비식별화

•

Code Llama의 corpus인 starcoder를 training corpus로 활용, BLOOM, LangBridge CL에 활용

•

LangBridge가 underrepresened language에서 우수한 성능, 9B는 code-llama-13B에 필적하는 성능

Logical Reasoning

•

Big-Bench Hard (BBH)와 Big-Bench Hard Bengali (BBH-BN)로 평가 

•

Orca2의 open-source version corpus인 open-orca를 sampled한 후 training corpus로 활용, BLOOM, LangBridge CL에 활용

•

BLOOM 그자체로는 multilingual reasoning이 안되어서 baseline에서 제외하였고, 그 외의 결과는 이전 추이와 비슷함

5. Analysis

•

PCA & Parellel Corpus

◦

LangBridge의 가장 core한 가설은 ‘multilingual encoders가 language-agnostic한 representation을 만들 수 있다’에서 시작된다.

◦

이게 사실이라면, LM에 따로 languagespecific features를 주입할 필요가 없고 현재 실험이 진행된것처럼 HRL로 CL을 진행하면 된다.

◦

이를 위해 parallel corpus FLORES를 활용해 ORCA, ORCA-LANGBRIDGE의 output representation → mean pooling의 PCA 결과를 찍어보어봄

◦

ORCA는 HRL는 몰려있고, LRL는 떨어져 있는 반면 LANGBRIDGE는 모든 언어가 single cluster를 이루고 있음

•

Accidental Translations

◦

cross-transfer setting이다보니 soft-prompt ⇒ eng cot로 반환해야하는데, Bengali를 soft prompt로 반환하는 과정후 forward하는 과정에서 (chinese embedding layer와 비슷했던거 같음) chinese를 output하는 accident가 존재했다고 함 

(그렇게 많은 case는 아니었다고 8/178)

6. Conclusion

•

해당 연구실에서 중요하게 생각하는 keyword인 ‘language agnostic representation’을 low-resource reasoning이라는 topic에 잘 녹인 연구라고 생각

•

다만 논문에서도 언급했듯이 이게 진정한 ‘Multilingual CoT Capabilities?’라고 반문한다면 그렇다고는 하지 못함. 결국 성능향상이 가능했던 이유는 baseLM이 English CoT를 생성했기 때문이기에 향후 발전은 어떻게 baseLM이 LRL-CoT를 생성하면서 성능을 올릴 수 있는가에 집중해야할 듯 하다.