Crafting In-context Examples according to LMs’ Parametric Knowledge

3. Known Examples vs. Unknown Examples

•

Prompt를 구성하기 위해서 entire dataset에서 top 5 most similar in-context examples를 retrieve

•

Query와 Training Data instance간의 SIMCSE representation similarity를 계산

•

4개의 PROMPT SET을 구성

→ UNKNOWN DEMO: test query에 대해서 top 5 most similar in-context examples임에도 LM이 Zero F1를 보이는 in-context examples

→ RANDOM: random하게 샘플된 in-context examples, LM이 0.18 F1를 보이는 in-context examples

→ KNOWN DEMO: test query에 LM이 1 F1를 보이는 in-context examples

→ HALF-KNOWN DEMO: test query에 대해서 LM이 0.5 F1를 보이는 in-context examples

** in-context examples간 similarity가 median에 유사한 examples만 실제 실험에 활용

** 저 4개의 SET에서 하나의 demonstration을 sampling해서 모든 query에 대해서 사용했다고 하는데.. 뭔소리임;;;;

→ Half-known (paramatric KG가 있는 demo와 적당히 Task Align 시켜줄 수 있는 demo)가 있는게 성능향상에 가장 좋은 영향을 미친다 같은데

→ (Test Query도 Parameterized 되어 있는데 LM이 Task Adapting을 못해서 못푼거라고 가정을 하면) Known만 주면 Demonstration에 Overfitting이 일어나는 대답을 하기 때문에 parametric kg와 educated guesses(Task Learn/Adapt)를 할 수 있는 Halfknown을 주는게 성능향상에 가장 도움이 된다이지 않을까

4. Single Answer Study

•

사용하는 데이터셋이 Multiple Answer가 가능한 데이터셋들이라, 1개의 Answer들만 주었을때는 어떻게 성능이 변하는지를 평가

•

이전과 동일하게 test query에 대해서 top 5 most similar in-context examples을 retrieve

•

데이터셋에는 in-context examples query에는 Gold Answer가 [a1, a2, … an]이 있는데  in-context examples query 1개에 대해서 가장 유사한 top-5를 retrieve해서 demo를 만듦

◦

이후 [demo, query, a_i]를 LM에 태워서 PPL를 평가하고 quartile로 별로 끊어서 [in-context examples query, answer pair  ppl]에 대해서 결과를 저장

→ 0% → 100% In-Context내 Answer에 대한 PPL이 낮아진다

→ Known한 Answer(LM이 confidence하게 예측했던 answer들을)를 많이 배치하면 할수록, 성능이 향상된다.

→ 전반적인 F1이 이전보다 낮은 이유는 Multiple Answer Choices → Single Answer Choice로 인한 Model Prediction 평가했을 때의 Recall 점수 감소폭이 크다고 함

5. Extension to Other Task

•

Reasoning Task와 NLI Task에서 확장을 해서 결과를 확인

•

Demonstration Set Formatting은 이전과 동일

•

4개의 PROMPT SET을 구성

→ UNKNOWN DEMO: incorrect label로만 구성

→ RANDOM

→ KNOWN DEMO: correct label로만 구성

→ HALF-KNOWN DEMO: 반반

•

NLI Task에서 KNOWN과 HALF-KNOWN 구분하는 방법

◦

training sample sample에서 query 1개를 select

◦

entire training set에서 위에서 select한 query를 제외하고 top 5 most similar in-context examples을 retrieve → DEMO라 명명

◦

[DEMO ; query]를 LM에 태워서 query를 맞추면 correct, 아니면 incorrect로 label.

→ 이전과 동일한 결과를 보임.