1. Introduction
•
Ambiguity란 언어가 가진 성질 중 하나로 화자가 효율성과 명확성의 트레이이드오프를 달성하게 해주는 장치 중 하나이다.
•
이러한 ‘Ambiguity’ 때문에 우리는 하나의 문장에 대해서 다양한 해석을 할 수 있고, 다양한 현상(miscommucation, covert message)으로 발현될 수 있다.
•
Top: 고양이는 집을 나간 후 길을 잃었다. (Miscommunication)
◦
집가는 긿을 잃어버린건가?
◦
진짜 긿을 잃어버린건가?
•
Bottom: 제가 취임한 이후 Wisconsin은 현재 두번째로 높은 의료서비스를 기록중입니다. (선동용)
◦
과거에 아닌데 현재 바뀐건가
◦
과거와는 무관하게 현재 그렇다.
→ RQ: LM이 Ambiguity한 문장을 어떻게 인식하고, 이 문장을 가능한 해석 중의 하나로 disambiguation할 수 있는 능력이 있는지를 확인해보는 연구는 거의 진행되지 않음.
•
Ambiguity를 측정할 수 있는 데이터셋을 NLI task format를 차용해서 구축 = AMBIENT
•
Analysis (Human Evaluation)을 통해 인간은 Ambiguity한 문장의 다양한 판독과 그것이 수반되는 선택에 미치는 영향을 안정적으로 구분할 수 있음을 보이고, '의견 불일치'로도 표명될 수 있는 불확실성의 근본적인 이유를 주관성이 아니라 Ambiguity에 기반해서 설명해보려고 노력한다.
•
구축한 AMBIENT를 가지고 PLM에서 다양한 실험을 한 결과, LM은 Ambiguity에서 명확한 문장으로 바꾸는 능력도, Ambiguity과 명확한 문장을 구별해서 인식하는 능력도 상당히 떨어짐
•
마찬가지로 기존의 multi-label에 fine-tining된 PLM들도 AMBIENT에 evaluation해보면 가능한 label set (e.g., 위에 figure에서 entail, neutral을 둘 다 정답)을 맞추는데 어려움을 보임
→ 기존에 benchmark를 개발할때, 한개의 text에는 하나의 의미만이 있다고 가정해서 개발했다. RQ를 바탕으로 LM(LLM도)이 Ambiguity에 sensitive함을 보였으니 이 부분도 신경을 써볼까에 대해서 질문을 던지는게 이 논문의 contribution.
2. AMBIENT
#### Curation
•
저자들이 기존 NLI dataset에서 curating해서 multi-label sets로 annotating
◦
Example에는 Premise, Hypo 둘중 하나 혹은 둘다에 ambiguous한 표현이 있음.
#### Generated Examples
•
WaNLI라는 데이터셋 활용, 같은 NLI reasoning path를 같은 데이터셋들끼리 그룹화
•
각 그룹에서 한개의 데이터에서 4-NN (WaNLI로 FT된 PLM 활용) sample을 보면 비슷한 Ambiguity pattern을 보인다고 함.
•
위의 5개 sample을 InstructGPT를 활용해 sample generation.
•
generated한 example이 WaNLI로 FT된 PLM(multi-label)로 classification 했을때 모든 label space에 대해서 0.05이상의 확률을 보이면 example 추가
#### Annotation & Validation
•
37 언어학과 학생들. Ambiguity하면 여러 label space로 labeling하고 disambguation rewrite. Else, single label. 안좋으면 discard.
3. Does Ambiguity Explain Disagreement?
•
Annotating을 할 때 발생할 수 있는 문제점은 한 example에 대해서 annotator들이 ‘disagree’한 label한 판정을 내리는 것. → example uncertainty라고 이논문에서 이야기함.
•
만약 개별 worker들이 어떤 문장에 Ambiguity가 있다는 사실을 인지하고, Ambiguity가 사라진 상태에서 통일된 label을 어느정도 부여한다면 example uncertainty를 annotator들의 disagreement로 모델링하려는 기존의 시도들이 문제가 되지 않을까?가 이번 section의 주요 RQ.
#### AMT에서 9명의 Review 소집
#### 1. 9명의 Worker들에게 AMBIENT의 Ambiguous NLI Examples를 주고 Single Label을 고르라고 지시
→ 0.12 Agreement across the worker
#### 2. 1에서 ambiguous를 유발하는 Premise나 Hypo를 아래로 변경하고 ambiguous sentence의 possible한 interpretation인지 worker가 check
•
Disambiguation #1
•
Disambiguation #2
•
Distractor (의미만 비슷한 문장)
→ Disambiguation 맞출 확률 96.7%, distractor 맞출 확률 43.7%, 평균적으로 93.7%의 의미 인식률을 보임
#### 3. ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label을 고르라고 지시
→ 0.67 Agreement across the worker
#### Majority Vote로 ambiguous→ full set of disambiguation sentence 인식률 & ambiguous문장 → {Disambiguation #1 , Disambiguation #2, Distractor}으로 바뀐 3개의 예시에 대해서 Single Label annotate시의 label agreement 것에 대한 agreement rate은 89.7% (이 수치는 LM의 benchmark로 사용)
•
결론 single annotator가 있는 상황에서 문장내에 있는 Ambiguity가 추후 ‘disagreement’의 원인이 될 수는 있으나, 문장을 명확하게만 바꿔주면 많은 부분 해결된다고 저자들은 주장.
•
Input ambiguity should be disentangled from subjectivity.
4. Evaluating Pretrained Language Models
•
사람은 문장내의 ambiguous한 표현 가능한 해석간의 관계를 높은 확률로 인식한다. (Section 03)
◦
해당 과정을 LM에 그대로 적용해보자가 Section 04
•
사용하는 LM
◦
LaMa (65B; Touvron et al., 2023) and GPT-3 (davinci), as well as instruction-tuned models FLAN-T5 (xxl; Chung et al., 2022), InstructGPT (text-davinci-003), ChatGPT (gpt-3.5-turbo), and the recent GPT-4.
#### 1. Generating Disambiguations
•
LM이 ambiguous한 표현에 대해서 가능한 Disambiguation & corresponding label들을 잘 만들어낼 수 있는가?
◦
4-shot Example로 위의 Prompt를 만듦
◦
Test Example은 1. 이후로 문장을 Generate
•
Automatic Evaluation
◦
Generated Label을 기반(True→ Entail GT가지고)으로 reference disambiguation & generation disambiguation 사이의 EDIT-F1 (calculate added & deleted unigram → F1)
•
Human Evaluation
◦
50개 sample 가지고 3 worker 데리고 section3의 step.2 (disambiguation가 plausible한가?) step.3 (disambiguation상태에서 single label) 진행
→ 가장 높은 GPT4가 32% 밖에 나오지 못함
#### Case Study.
ChatGPT같은 경우에는 restate함으로써 disambiguate하는 경향이 강하다고 함.
→ P: He always ignores his mother’s advice to follow his own dreams.
→ H: He follows his dreams.
→ P1: He always ignores his mother’s advice to follow his own dreams and therefore does not follow his dream.
→ P2: He always ignores his mother’s advice to follow his own dreams and does follow his dream.
•
특정 metric으로만 살펴보면 model이 보여주는 disambiguatation 능력이 overestimation될 수도 있다.
#### 2. Recognizing Disambiguations
•
ambiguous sentences를 가지고 모델이 이 문장을 정확히 인식할 수 있냐를 zero-shot setting으로 평가
→ 가장 높은 GPT4가 63% 밖에 나오지 못함
•
Internally consistency도 매우 떨어짐
◦
ambiguous sentence a에 대해서 disambiguation (d1,d2)가 존재할 때, GPT4가
▪
a This may mean d1, d2 True
▪
a This can only mean d1, d2 True
로 대답한 확률이 76%.
#### 3. Modeling Interpretation-Specific Continuation
•
ambiguous sentence vs. disambiguation한 문장 이후 등장한 continuation은 확률적으로 차이가 있을까?
→ sample 100 continuations c ∼ P (⋅ ∣ d_i)
→ compare the likelihood of c under the ambiguous sentence a versus the corresponding disambiguation di by computing log P (c ∣ d_i) − log P (c ∣ a).
→ d_i도 a랑 큰 의미적으로 다른 문장은 아니기 때문에 KLD가 너무 크지 않기를 기대함.
→ a에서 random으로 단어 몇개를 교체해 distractor 문장 ̃ d를 만든 후 아래 metric(KL ranking ACC)를 만듦.
•
Intuition: LM이 a→d_i인걸 안다면, 위 ACC 점수가 높을 것
•
실험결과가 이전이랑 일관되지 않아서 저자들 설명이 너무 모호함. 정리하면, LM이 아직 ambiguity를 인식하고 테스트하는데 있어서 한계가 있다. 정도 인듯.
5. Evaluating Multilabel NLI Models
•
기존 underspecification and subjectivity in NLI dataset에 FT시킨 model들이 과연 ambiguous한 문장들을 잘 구별할 수 있을까?
•
Setting
◦
Multi-Label Classification
◦
Backbone: Robera-Lage
◦
Tuning threshold with dev set
◦
metric
▪
macro-f1: label에 대한 f1
▪
exact match: (ambiguous 혹은 disambiguation이 있는 example) label set에 대한 exact match
▪
group EM: (ambiguous, 그리고 disambiguation이 있는 example) label set에 대한 exact match
•
NLI Format으로 학습한다고 해서 ambiguous가 개선될 수 있는 것은 아님.
6. Conclusion
•
좋은 의제를 가지고 논문을 전개함
◦
인간조차 헷갈려하는 모호성이라는 것을 LLM이 못하는 환경을 보이기 위해서 NLI라는 Task Format을 채택.
◦
다양한 실험환경을 가지고 이를 보여줌.
•
전체 Section을 관통하는 큰 주제가 없음… → 그래서 뭐 어쩔건데? 뭐하고 싶은건데?가 없어서 읽기 힘들었음…
•
그럼에도 subarea에서 굉장히 좋은 insight를 처음으로 제시한 논문이라고 생각함.