3. Known Examples vs. Unknown Examples
•
Prompt를 구성하기 위해서 entire dataset에서 top 5 most similar in-context examples를 retrieve
•
Query와 Training Data instance간의 SIMCSE representation similarity를 계산
•
4개의 PROMPT SET을 구성
→ UNKNOWN DEMO: test query에 대해서 top 5 most similar in-context examples임에도 LM이 Zero F1를 보이는 in-context examples
→ RANDOM: random하게 샘플된 in-context examples, LM이 0.18 F1를 보이는 in-context examples
→ KNOWN DEMO: test query에 LM이 1 F1를 보이는 in-context examples
→ HALF-KNOWN DEMO: test query에 대해서 LM이 0.5 F1를 보이는 in-context examples
** in-context examples간 similarity가 median에 유사한 examples만 실제 실험에 활용
** 저 4개의 SET에서 하나의 demonstration을 sampling해서 모든 query에 대해서 사용했다고 하는데.. 뭔소리임;;;;
→ Half-known (paramatric KG가 있는 demo와 적당히 Task Align 시켜줄 수 있는 demo)가 있는게 성능향상에 가장 좋은 영향을 미친다 같은데
→ (Test Query도 Parameterized 되어 있는데 LM이 Task Adapting을 못해서 못푼거라고 가정을 하면) Known만 주면 Demonstration에 Overfitting이 일어나는 대답을 하기 때문에 parametric kg와 educated guesses(Task Learn/Adapt)를 할 수 있는 Halfknown을 주는게 성능향상에 가장 도움이 된다이지 않을까
4. Single Answer Study
•
사용하는 데이터셋이 Multiple Answer가 가능한 데이터셋들이라, 1개의 Answer들만 주었을때는 어떻게 성능이 변하는지를 평가
•
이전과 동일하게 test query에 대해서 top 5 most similar in-context examples을 retrieve
•
데이터셋에는 in-context examples query에는 Gold Answer가 [a1, a2, … an]이 있는데 in-context examples query 1개에 대해서 가장 유사한 top-5를 retrieve해서 demo를 만듦
◦
이후 [demo, query, a_i]를 LM에 태워서 PPL를 평가하고 quartile로 별로 끊어서 [in-context examples query, answer pair
ppl]에 대해서 결과를 저장
→ 0% → 100% In-Context내 Answer에 대한 PPL이 낮아진다
→ Known한 Answer(LM이 confidence하게 예측했던 answer들을)를 많이 배치하면 할수록, 성능이 향상된다.
→ 전반적인 F1이 이전보다 낮은 이유는 Multiple Answer Choices → Single Answer Choice로 인한 Model Prediction 평가했을 때의 Recall 점수 감소폭이 크다고 함
5. Extension to Other Task
•
Reasoning Task와 NLI Task에서 확장을 해서 결과를 확인
•
Demonstration Set Formatting은 이전과 동일
•
4개의 PROMPT SET을 구성
→ UNKNOWN DEMO: incorrect label로만 구성
→ RANDOM
→ KNOWN DEMO: correct label로만 구성
→ HALF-KNOWN DEMO: 반반
•
NLI Task에서 KNOWN과 HALF-KNOWN 구분하는 방법
◦
training sample sample에서 query 1개를 select
◦
entire training set에서 위에서 select한 query를 제외하고 top 5 most similar in-context examples을 retrieve → DEMO라 명명
◦
[DEMO ; query]를 LM에 태워서 query를 맞추면 correct, 아니면 incorrect로 label.
→ 이전과 동일한 결과를 보임.