Search

We’re Afraid Language Model Aren’t Modeling Ambiguity

Category
PaperReview
Venue
EMNLP 2023
Backbone
GPT3
InstructGPT
GPT4
Text
- LM이 모호함을 해석하는 방법이 떨어짐을 분석하기 위해 데이터셋 및 analysis를 제시하는 논문. - 모호한 문장과 그 문장에 대한 2가지 가능한 해석에 대해서 언어모델이 상이한 해석을 하는것으로 보아 아직은 언어모델이 모호한 문장에 대한 해석이 되지 않음을 알 수 있다.
PPT

1. Introduction

Ambiguity란 언어가 가진 성질 중 하나로 화자가 효율성과 명확성의 트레이이드오프를 달성하게 해주는 장치 중 하나이다.
이러한 ‘Ambiguity’ 때문에 우리는 하나의 문장에 대해서 다양한 해석을 할 수 있고, 다양한 현상(miscommucation, covert message)으로 발현될 수 있다.
Top: 고양이는 집을 나간 후 길을 잃었다. (Miscommunication)
집가는 긿을 잃어버린건가?
진짜 긿을 잃어버린건가?
Bottom: 제가 취임한 이후 Wisconsin은 현재 두번째로 높은 의료서비스를 기록중입니다. (선동용)
과거에 아닌데 현재 바뀐건가
과거와는 무관하게 현재 그렇다.
RQ: LM이 Ambiguity한 문장을 어떻게 인식하고, 이 문장을 가능한 해석 중의 하나로 disambiguation할 수 있는 능력이 있는지를 확인해보는 연구는 거의 진행되지 않음.
Ambiguity를 측정할 수 있는 데이터셋을 NLI task format를 차용해서 구축 = AMBIENT
Analysis (Human Evaluation)을 통해 인간은 Ambiguity한 문장의 다양한 판독과 그것이 수반되는 선택에 미치는 영향을 안정적으로 구분할 수 있음을 보이고, '의견 불일치'로도 표명될 수 있는 불확실성의 근본적인 이유를 주관성이 아니라 Ambiguity에 기반해서 설명해보려고 노력한다.
구축한 AMBIENT를 가지고 PLM에서 다양한 실험을 한 결과, LM은 Ambiguity에서 명확한 문장으로 바꾸는 능력도, Ambiguity과 명확한 문장을 구별해서 인식하는 능력도 상당히 떨어짐
마찬가지로 기존의 multi-label에 fine-tining된 PLM들도 AMBIENT에 evaluation해보면 가능한 label set (e.g., 위에 figure에서 entail, neutral을 둘 다 정답)을 맞추는데 어려움을 보임
→ 기존에 benchmark를 개발할때, 한개의 text에는 하나의 의미만이 있다고 가정해서 개발했다. RQ를 바탕으로 LM(LLM도)이 Ambiguity에 sensitive함을 보였으니 이 부분도 신경을 써볼까에 대해서 질문을 던지는게 이 논문의 contribution.

2. AMBIENT

#### Curation
저자들이 기존 NLI dataset에서 curating해서 multi-label sets로 annotating
Example에는 Premise, Hypo 둘중 하나 혹은 둘다에 ambiguous한 표현이 있음.
#### Generated Examples
WaNLI라는 데이터셋 활용, 같은 NLI reasoning path를 같은 데이터셋들끼리 그룹화
각 그룹에서 한개의 데이터에서 4-NN (WaNLI로 FT된 PLM 활용) sample을 보면 비슷한 Ambiguity pattern을 보인다고 함.
위의 5개 sample을 InstructGPT를 활용해 sample generation.
generated한 example이 WaNLI로 FT된 PLM(multi-label)로 classification 했을때 모든 label space에 대해서 0.05이상의 확률을 보이면 example 추가
#### Annotation & Validation
37 언어학과 학생들. Ambiguity하면 여러 label space로 labeling하고 disambguation rewrite. Else, single label. 안좋으면 discard.

3. Does Ambiguity Explain Disagreement?

Annotating을 할 때 발생할 수 있는 문제점은 한 example에 대해서 annotator들이 ‘disagree’한 label한 판정을 내리는 것. → example uncertainty라고 이논문에서 이야기함.
만약 개별 worker들이 어떤 문장에 Ambiguity가 있다는 사실을 인지하고, Ambiguity가 사라진 상태에서 통일된 label을 어느정도 부여한다면 example uncertainty를 annotator들의 disagreement로 모델링하려는 기존의 시도들이 문제가 되지 않을까?가 이번 section의 주요 RQ.
#### AMT에서 9명의 Review 소집
#### 1. 9명의 Worker들에게 AMBIENT의 Ambiguous NLI Examples를 주고 Single Label을 고르라고 지시
→ 0.12 Agreement across the worker
#### 2. 1에서 ambiguous를 유발하는 Premise나 Hypo를 아래로 변경하고 ambiguous sentence의 possible한 interpretation인지 worker가 check
Disambiguation #1
Disambiguation #2
Distractor (의미만 비슷한 문장)
→ Disambiguation 맞출 확률 96.7%, distractor 맞출 확률 43.7%, 평균적으로 93.7%의 의미 인식률을 보임
#### 3. ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label을 고르라고 지시
→ 0.67 Agreement across the worker
#### Majority Vote로 ambiguous→ full set of disambiguation sentence 인식률 & ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label annotate시의 label agreement 것에 대한 agreement rate은 89.7% (이 수치는 LM의 benchmark로 사용)
결론 single annotator가 있는 상황에서 문장내에 있는 Ambiguity가 추후 ‘disagreement’의 원인이 될 수는 있으나, 문장을 명확하게만 바꿔주면 많은 부분 해결된다고 저자들은 주장.
Input ambiguity should be disentangled from subjectivity.

4. Evaluating Pretrained Language Models

사람은 문장내의 ambiguous한 표현 가능한 해석간의 관계를 높은 확률로 인식한다. (Section 03)
해당 과정을 LM에 그대로 적용해보자가 Section 04
사용하는 LM
LaMa (65B; Touvron et al., 2023) and GPT-3 (davinci), as well as instruction-tuned models FLAN-T5 (xxl; Chung et al., 2022), InstructGPT (text-davinci-003), ChatGPT (gpt-3.5-turbo), and the recent GPT-4.
#### 1. Generating Disambiguations
LM이 ambiguous한 표현에 대해서 가능한 Disambiguation & corresponding label들을 잘 만들어낼 수 있는가?
4-shot Example로 위의 Prompt를 만듦
Test Example은 1. 이후로 문장을 Generate
Automatic Evaluation
Generated Label을 기반(True→ Entail GT가지고)으로 reference disambiguation & generation disambiguation 사이의 EDIT-F1 (calculate added & deleted unigram → F1)
Human Evaluation
50개 sample 가지고 3 worker 데리고 section3의 step.2 (disambiguation가 plausible한가?) step.3 (disambiguation상태에서 single label) 진행
→ 가장 높은 GPT4가 32% 밖에 나오지 못함
#### Case Study.
ChatGPT같은 경우에는 restate함으로써 disambiguate하는 경향이 강하다고 함.
→ P: He always ignores his mother’s advice to follow his own dreams.
→ H: He follows his dreams.
→ P1: He always ignores his mother’s advice to follow his own dreams and therefore does not follow his dream.
→ P2: He always ignores his mother’s advice to follow his own dreams and does follow his dream.
특정 metric으로만 살펴보면 model이 보여주는 disambiguatation 능력이 overestimation될 수도 있다.
#### 2. Recognizing Disambiguations
ambiguous sentences를 가지고 모델이 이 문장을 정확히 인식할 수 있냐를 zero-shot setting으로 평가
→ 가장 높은 GPT4가 63% 밖에 나오지 못함
Internally consistency도 매우 떨어짐
ambiguous sentence a에 대해서 disambiguation (d1,d2)가 존재할 때, GPT4가
a This may mean d1, d2 True
a This can only mean d1, d2 True
로 대답한 확률이 76%.
#### 3. Modeling Interpretation-Specific Continuation
ambiguous sentence vs. disambiguation한 문장 이후 등장한 continuation은 확률적으로 차이가 있을까?
→ sample 100 continuations c ∼ P (⋅ ∣ d_i)
→ compare the likelihood of c under the ambiguous sentence a versus the corresponding disambiguation di by computing log P (c ∣ d_i) − log P (c ∣ a).
→ d_i도 a랑 큰 의미적으로 다른 문장은 아니기 때문에 KLD가 너무 크지 않기를 기대함.
→ a에서 random으로 단어 몇개를 교체해 distractor 문장 ̃ d를 만든 후 아래 metric(KL ranking ACC)를 만듦.
Intuition: LM이 a→d_i인걸 안다면, 위 ACC 점수가 높을 것
실험결과가 이전이랑 일관되지 않아서 저자들 설명이 너무 모호함. 정리하면, LM이 아직 ambiguity를 인식하고 테스트하는데 있어서 한계가 있다. 정도 인듯.

5. Evaluating Multilabel NLI Models

기존 underspecification and subjectivity in NLI dataset에 FT시킨 model들이 과연 ambiguous한 문장들을 잘 구별할 수 있을까?
Setting
Multi-Label Classification
Backbone: Robera-Lage
Tuning threshold with dev set
metric
macro-f1: label에 대한 f1
exact match: (ambiguous 혹은 disambiguation이 있는 example) label set에 대한 exact match
group EM: (ambiguous, 그리고 disambiguation이 있는 example) label set에 대한 exact match
NLI Format으로 학습한다고 해서 ambiguous가 개선될 수 있는 것은 아님.

6. Conclusion

좋은 의제를 가지고 논문을 전개함
인간조차 헷갈려하는 모호성이라는 것을 LLM이 못하는 환경을 보이기 위해서 NLI라는 Task Format을 채택.
다양한 실험환경을 가지고 이를 보여줌.
전체 Section을 관통하는 큰 주제가 없음… → 그래서 뭐 어쩔건데? 뭐하고 싶은건데?가 없어서 읽기 힘들었음…
그럼에도 subarea에서 굉장히 좋은 insight를 처음으로 제시한 논문이라고 생각함.