We’re Afraid Language Model Aren’t Modeling Ambiguity

1. Introduction

•

Ambiguity란 언어가 가진 성질 중 하나로 화자가 효율성과 명확성의 트레이이드오프를 달성하게 해주는 장치 중 하나이다.

•

이러한 ‘Ambiguity’ 때문에 우리는 하나의 문장에 대해서 다양한 해석을 할 수 있고, 다양한 현상(miscommucation, covert message)으로 발현될 수 있다.

•

Top: 고양이는 집을 나간 후 길을 잃었다. (Miscommunication)

◦

집가는 긿을 잃어버린건가?

◦

진짜 긿을 잃어버린건가?

•

Bottom: 제가 취임한 이후 Wisconsin은 현재 두번째로 높은 의료서비스를 기록중입니다. (선동용)

◦

과거에 아닌데 현재 바뀐건가

◦

과거와는 무관하게 현재 그렇다.

→ RQ: LM이 Ambiguity한 문장을 어떻게 인식하고, 이 문장을 가능한 해석 중의 하나로 disambiguation할 수 있는 능력이 있는지를 확인해보는 연구는 거의 진행되지 않음.

•

Ambiguity를 측정할 수 있는 데이터셋을 NLI task format를 차용해서 구축 = AMBIENT

•

Analysis (Human Evaluation)을 통해 인간은 Ambiguity한 문장의 다양한 판독과 그것이 수반되는 선택에 미치는 영향을 안정적으로 구분할 수 있음을 보이고, '의견 불일치'로도 표명될 수 있는 불확실성의 근본적인 이유를 주관성이 아니라 Ambiguity에 기반해서 설명해보려고 노력한다.

•

구축한 AMBIENT를 가지고 PLM에서 다양한 실험을 한 결과, LM은 Ambiguity에서 명확한  문장으로 바꾸는 능력도, Ambiguity과 명확한 문장을 구별해서 인식하는 능력도 상당히 떨어짐

•

마찬가지로 기존의 multi-label에 fine-tining된 PLM들도 AMBIENT에 evaluation해보면 가능한 label set (e.g., 위에 figure에서 entail, neutral을 둘 다 정답)을 맞추는데 어려움을 보임

→ 기존에 benchmark를 개발할때, 한개의 text에는 하나의 의미만이 있다고 가정해서 개발했다. RQ를 바탕으로 LM(LLM도)이 Ambiguity에 sensitive함을 보였으니 이 부분도 신경을 써볼까에 대해서 질문을 던지는게 이 논문의 contribution.

2. AMBIENT

#### Curation

•

저자들이 기존 NLI dataset에서 curating해서 multi-label sets로 annotating

◦

Example에는 Premise, Hypo 둘중 하나 혹은 둘다에 ambiguous한 표현이 있음.

#### Generated Examples

•

WaNLI라는 데이터셋 활용, 같은 NLI reasoning path를 같은 데이터셋들끼리 그룹화

•

각 그룹에서 한개의 데이터에서 4-NN (WaNLI로 FT된 PLM 활용) sample을 보면 비슷한 Ambiguity pattern을 보인다고 함.

•

위의 5개 sample을 InstructGPT를 활용해 sample generation.

•

generated한 example이 WaNLI로 FT된 PLM(multi-label)로 classification 했을때 모든 label space에 대해서 0.05이상의 확률을 보이면 example 추가

#### Annotation & Validation

•

37 언어학과 학생들. Ambiguity하면 여러 label space로 labeling하고 disambguation rewrite. Else, single label. 안좋으면 discard.

3. Does Ambiguity Explain Disagreement?

•

Annotating을 할 때 발생할 수 있는 문제점은 한 example에 대해서 annotator들이 ‘disagree’한 label한 판정을 내리는 것. → example uncertainty라고 이논문에서 이야기함.

•

만약 개별 worker들이 어떤 문장에 Ambiguity가 있다는 사실을 인지하고, Ambiguity가 사라진 상태에서 통일된 label을 어느정도 부여한다면 example uncertainty를 annotator들의 disagreement로 모델링하려는 기존의 시도들이 문제가 되지 않을까?가 이번 section의 주요 RQ.

#### AMT에서 9명의 Review 소집

#### 1. 9명의 Worker들에게 AMBIENT의 Ambiguous NLI Examples를 주고 Single Label을 고르라고 지시

→ 0.12 Agreement across the worker

#### 2. 1에서 ambiguous를 유발하는 Premise나 Hypo를 아래로 변경하고 ambiguous sentence의 possible한 interpretation인지 worker가 check

•

Disambiguation #1

•

Disambiguation #2

•

Distractor (의미만 비슷한 문장) 

→ Disambiguation 맞출 확률 96.7%, distractor 맞출 확률 43.7%, 평균적으로 93.7%의 의미 인식률을 보임

#### 3. ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label을 고르라고 지시

→ 0.67 Agreement across the worker

#### Majority Vote로 ambiguous→ full set of disambiguation sentence 인식률 & ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label annotate시의 label agreement 것에 대한 agreement rate은 89.7% (이 수치는 LM의 benchmark로 사용)

•

결론 single annotator가 있는 상황에서 문장내에 있는 Ambiguity가 추후 ‘disagreement’의 원인이 될 수는 있으나, 문장을 명확하게만 바꿔주면 많은 부분 해결된다고 저자들은 주장.

•

Input ambiguity should be disentangled from subjectivity.

4. Evaluating Pretrained Language Models

•

사람은 문장내의 ambiguous한 표현 가능한 해석간의 관계를 높은 확률로 인식한다. (Section 03) 

◦

해당 과정을 LM에 그대로 적용해보자가 Section 04

•

사용하는 LM

◦

LaMa (65B; Touvron et al., 2023) and GPT-3 (davinci), as well as instruction-tuned models FLAN-T5 (xxl; Chung et al., 2022), InstructGPT (text-davinci-003), ChatGPT (gpt-3.5-turbo), and the recent GPT-4.

#### 1. Generating Disambiguations

•

LM이 ambiguous한 표현에 대해서 가능한 Disambiguation & corresponding label들을 잘 만들어낼 수 있는가?

◦

4-shot Example로 위의 Prompt를 만듦

◦

Test Example은 1. 이후로 문장을 Generate

•

Automatic Evaluation

◦

Generated Label을 기반(True→ Entail GT가지고)으로 reference disambiguation & generation disambiguation 사이의 EDIT-F1 (calculate added & deleted unigram → F1)

•

Human Evaluation

◦

50개 sample 가지고 3 worker 데리고 section3의 step.2 (disambiguation가 plausible한가?) step.3 (disambiguation상태에서 single label) 진행

→ 가장 높은 GPT4가 32% 밖에 나오지 못함

#### Case Study.

ChatGPT같은 경우에는 restate함으로써 disambiguate하는 경향이 강하다고 함.

→ P: He always ignores his mother’s advice to follow his own dreams.

→ H: He follows his dreams.

→ P1: He always ignores his mother’s advice to follow his own dreams and therefore does not follow his dream.

→ P2: He always ignores his mother’s advice to follow his own dreams and does follow his dream.

•

특정 metric으로만 살펴보면 model이 보여주는 disambiguatation 능력이 overestimation될 수도 있다.

#### 2. Recognizing Disambiguations

•

ambiguous sentences를 가지고 모델이 이 문장을 정확히 인식할 수 있냐를 zero-shot setting으로 평가

→ 가장 높은 GPT4가 63% 밖에 나오지 못함

•

Internally consistency도 매우 떨어짐

◦

ambiguous sentence a에 대해서 disambiguation (d1,d2)가  존재할 때, GPT4가

▪

a This may mean d1, d2 True

▪

a This can only mean d1, d2 True

로 대답한 확률이 76%.

#### 3. Modeling Interpretation-Specific Continuation

•

ambiguous sentence vs. disambiguation한 문장 이후 등장한 continuation은 확률적으로 차이가 있을까?

→ sample 100 continuations c ∼ P (⋅ ∣ d_i)

→ compare the likelihood of c under the ambiguous sentence a versus the corresponding disambiguation di by computing log P (c ∣ d_i) − log P (c ∣ a).

→ d_i도 a랑 큰 의미적으로 다른 문장은 아니기 때문에 KLD가 너무 크지 않기를 기대함.

→ a에서 random으로 단어 몇개를 교체해 distractor 문장 ̃ d를 만든 후 아래 metric(KL ranking ACC)를 만듦.

•

Intuition: LM이 a→d_i인걸 안다면, 위 ACC 점수가 높을 것

•

실험결과가 이전이랑 일관되지 않아서 저자들 설명이 너무 모호함. 정리하면, LM이 아직 ambiguity를 인식하고 테스트하는데 있어서 한계가 있다. 정도 인듯.

5. Evaluating Multilabel NLI Models

•

기존 underspecification and subjectivity in NLI dataset에 FT시킨 model들이 과연 ambiguous한 문장들을 잘 구별할 수 있을까?

•

Setting

◦

Multi-Label Classification

◦

Backbone: Robera-Lage

◦

Tuning threshold with dev set

◦

metric

▪

macro-f1: label에 대한 f1

▪

exact match: (ambiguous 혹은 disambiguation이 있는 example) label set에 대한 exact match 

▪

group EM: (ambiguous, 그리고 disambiguation이 있는 example) label set에 대한 exact match 

•

NLI Format으로 학습한다고 해서 ambiguous가 개선될 수 있는 것은 아님.

6. Conclusion

•

좋은 의제를 가지고 논문을 전개함

◦

인간조차 헷갈려하는 모호성이라는 것을 LLM이 못하는 환경을 보이기 위해서 NLI라는 Task Format을 채택. 

◦

다양한 실험환경을 가지고 이를 보여줌.

•

전체 Section을 관통하는 큰 주제가 없음… → 그래서 뭐 어쩔건데? 뭐하고 싶은건데?가 없어서 읽기 힘들었음…

•

그럼에도 subarea에서 굉장히 좋은 insight를 처음으로 제시한 논문이라고 생각함.