1. Introduction
→ Training Compute (Pretraining Corpus), Model parameters를 증가시킬수록 NLP task에서 좋은 성능과 sampling efficiency를 증가시키는 것은 많이 알려진 바
→ 그러나 어떤 downstream task는 직관적으로 규모 (Training Compute (Pretraining Corpus), Model parameters)에 따라 선형적으로 개선되지 않으며, 특히 특정 downstram task의 성능 향상 또는 개선은 작업은 미리 예측할 수 없습니다.
→ 논문에서는 이러한 LLM의 the unpredictable phenomena인 ‘emergent abilities’에 대해서 다뤄보기로 한다.
구체적인 ‘emergent abilities’의 정의에 앞서 Emergence에 대한 정의부터 시작하는데,
•
Emergence is when quantitative changes in a system result in qualitative changes in behavior.
◦
quantitative changes in a system: Training Compute (Pretraining Corpus), Model parameters
◦
qualitative changes in behavior: Downstream Task Performance
정도로 받아들이면 될 것 같다.
2. Emergent Abilities Definition
•
An ability is emergent if it is not present in smaller models but is present in larger models.
→ 논문에서 emergent abilities는 단순히 smaller model의 performance를 scaling law을 기반으로 extrapolating해서 추정할 수 없다고 주장합니다.
→ 즉 어느 규모 (Training Compute (Pretraining Corpus), Model parameters)의 Model까지는 random한 performance를 보이다가, 특정 임계값 이후부터는 Model이 random이상의 performance를 보일 경우 emergent abilities가 있다고 주장합니다. (phase transition이라고도 불림: 소규모 시스템을 조사할 때는 예측할 수 없었던 전반적인 행동의 극적인 변화)
#### 이제 논문에서는 Emergent Abilites를 보여주기 위한 Setting을 제시함
→ 오늘날의 LLM은 세 가지 요소에 따라 확장될 수 있음
•
amount of computation
•
number of model parameters
•
training dataset size
→ 논문에서 기본으로 사용할 setting은 x-axis (FLOPs), y-axis (performance)임
(모델 파라미터와 거의 비례하여 훈련 연산이 확장되기 때문에 FLOPs를 x-axis로 두었다)
FLOPs (FLoating Point Operations)
•
실수 연산을 하는데 드는 연산 수
•
Efficiency가 좋은 모델임을 증명하고자 할 경우
•
e.g.)
◦
y= w[0] * x[0] + w[1] * x[1] +w[2] * x[2]
▪
(2n-1) FLOPs
→ 학습 데이터세트 크기도 중요한 요소이지만, 1개의 model family가 모든 모델 크기에 대해 고정된 수의 학습 예제를 사용하기 때문에 x-axis로 이를 활용하지는 X
→ 알다시피 training compute와 model parameter를 모두 포괄하는 하나의 proxy는 존재하지 않음.
(Chinchilla(Hoffmann et al., 2022)는 Gopher(Rae et al., 2021)의 4분의 1에 해당하는 파라미터를 사용하지만 비슷한 training compute을 사용)
→저자들은 emergence라는게 불변하는 ability가 아니기에 다양한 속성에 의해서 처음으로 emergence라는게 처음으로 발현될 수 있다고 주장함
(less training compute or fewer model parameters for models trained on higher-quality data로도 빠르게 emergence가 발현된다던가)
→ 따라서, emergent abilities라는것이 발현되기 위해서는 특정 scale이 필요하다고 주장하는게 아니라, 이전 연구에서 논의해왔던 emergent behavior를 scale관점에서 실험적으로 보이고 설명하는걸 목표로한다고 저자들은 설명하고 있음
3. Few-Shot Prompted Tasks
→ Few-Shot Prompting: includes a few input-output examples in the model’s context (input) as a preamble before asking the model to perform the task for an unseen (LM을 downstream task에 대한 FT를 한게 아니니깐) inference-time example.
→ 논문에선 어떤 model이 특정 scale (Training Compute (Pretraining Corpus), Model parameters) 이후에 Few-Shot Prompting에서 Random 성능 이상을 보이면, ‘emergent’가 발현되었다고 정의하고 있다.
#### Training Compute(FLOPs)에 따른 Few-Shot Prompting의 성능
→ 더 많은 Training Compute (FLOPs)를 사용한 model일 수록 일반적으로 더 큰 모델 parameter를 가지고 있음 (같은 Family군내의 서로 다른 Scale의 Models를 Training시킬 때 같은 PT Corpus를 Training 시킬 때, 이들간의 Training Compute를 가장 확연하게 들어내기 좋은 요소가 FLOPs라 사용하지 않았을까?)
•
(A)~(D) Bigbench (2-shot)에서 GPT3의 경우 10^22 training FLOPs (13B parameters) 이상 LaMDA는 10^23 training FLOPs (68B parameters) for LaMDA에서 Random이상의 성능 보임.
•
(E): GPT3에 대해 아무리 모델 크기를 확장해도 적대적으로 성능이 나오도록 큐레이팅. Gopher정도야 5 · 10^23 training FLOPs (280B parameters)이상 끌어올려야 Random 대비 20%이상 성능을 발휘하기 시작함
•
(F): GPT3 가장 큰 Model만 성능 잘나옴
•
(G): MMLU, GPT-3, Gopher, and Chinchilla, 모두 10^22 training FLOPs (∼10B parameters) 보다 작은 사이즈에서 Random guessing. 3–5 ·10^23 training FLOPs (70B–280B parameters)까지 scale을 확장해야 random 이상의 성능을 보임.
→ 대규모 주제 모음에 걸친 지식 기반 문제를 풀려면 이 (1) 임계값 사이즈를 올리거나 (2) 직접적인 external memory를 활용한 retrieval을 쓰거나
•
(h): semantic understanding benchmark (1-shot). GPT-3, Chinchilla 가장 큰 FLOPs로도 좋은 성능 못나와서 PALM 540B가져와서 해보니까 emergence를 보이더라.
4. Augmented Prompting Strategies (several other prompting and finetuning strategies)
→ Fewshot prompting을 제외하고 조금 더 Complex한 Promptin이나 Instruction Following에서도 emergent abilities가 발현되는지 확인하기 위한 실험을 진행함
•
(A) 10^23 training FLOPs (∼100B parameters)를 넘어야 chain of thought prompting가 No CoT를 reasoning task에서 넘음
•
(B) Instruction Tuning에서 7 · 10^21 training FLOPs (8B parameters)보다 작은 모델에서 Instruction-Tuning이 오히려 Performance Hurt가 발생했다고 주장함.
→ 이건 Backbone 문제같음
•
(C),(D) 8-digit addition을 하거나 P(True)로 각 Answer을 Calibration하는 방법도 큰 Scale에서만 Working함.
5 Discussion
→ Few-Shot Prompt Task를 pre-training때 명시적으로 학습한 것도 아니기에 Emergent의 정도 (Scale 크기, 어떤 Task까지 수행)은 미리 예측할 수가 없음
→ 또 논문에서 이러한 장표가 실험적으로 얻어졌기 때문에 결과에 대한 discussion을 장황하게 적어놓음
### Potential explanations of emergence
→ l step의 reasoning step이 필요하면 최소 O(l) layer가 필요함 (서로 다른 representation)
→ 더 많은 parameter와 더 많은 training compute을 통해 memorization : Knowledge Intensive Task에 도움이 됨
→ NIPS 2023 논문에서도 주장되었듯이 Metric이 String Match이기 때문에 Emergent Abilities가 있는것처럼 보이는거일 수도 있다. 논문에서는 reasoning 과정이 틀리고 final만 갑자기 맞아서 Emergent Abilities가 발현되는 경우도 이야기한다.
(최종 정답 정확도의 급증은 중간 단계의 품질이 갑자기 무작위 이상으로 나타나는 이유를 설명하지 못하며, 많은 분류 과제(예: 그림 2D-H의 과제)에서 여전히 출현 능력이 관찰되므로 부분 점수를 부여하지 않는 평가 지표를 사용하는 것은 기껏해야 불완전한 설명에 불과하다고 설명)
→ cross-entropy loss는 downstream metrics (exact match, BLEU, and accuracy)가 random에 가깝고 개선되지 않는 small scale model에서도 개선되며, 이는 target sequence의 log likehood 개선이 downstream metrics의 개선을 보장하지는 않음.
#### Beyond scaling
→ 14 BIG-Bench tasks에서 LaMDA 137B와 GP3 175B 모델은 랜덤 성능을 보이듯이지만 PaLM 62B가 더 적은 모델 파라미터와 적은 FLOPs에도 좋은 성능을 보임
: model scale이 emergent abilities를 unlocking하는 유일한 요소는 아님
: PaLM vs LaMDA에서 전자의 성능 우의 근거를 찾아보면 (1) 고품질데이터 (코드 및 multilingual) (2) 아키택처차이 (split digit encoding)
#### Another view of emergence
→ scale (e.g., training FLOPs or model parameters)가 emergent abilities를 보여주는 유일한 lens가 아니다.
→ Gopher와 Chinchilla만을 고려했을때, WikiText103 perplexity와 training FLOPs는 상당히 correlated 되어있음.
→ FLOPs, Model Parameters와 마찬가지로 WikiText PPL도 일정수준이하(7)로 낮아지는 경우에만 MMLU에 대한 Random이상으로 증가하는 것을 확인할 수 있음.
→ WikiText PPL도 일정수준이하(7)로 낮아지는 경우는 Model Size가 100B를 상회하는 경우.
#### Emergent risks
→ 특정 Scale에서 abilities가 툭하고 형성되는것은 아니지만, Scaling Law로 LMs의 (1) bias가 강화되거나 (e.g “nurse” or “electrician,”를 특정 성별로 연결짓기) (2) pre-training data memorization의 경향성을 보인다는 선행연구가 있음