*️⃣

LLAMA1 Simple Takeways

Category

BlogPost

Venue

Backbone

Auto-Regressive

Text

PPT

LM의 성능에 있어서 중요한 요인

•

학습 데이터 (Chinchilla)

◦

 웹 크롤 데이터가 합계 82% (정제를 위해 별도의 모델을 구축 = 수집한 페이지가 위키백과의 인용 출처로 쓰일 수 있는가 없는가를 판별하는 분류기를 학습)

◦

다음으로 깃헙이 보이는데요, 요즘 대형 언어모델들은 대개 코드 데이터를 학습에 포함시키고 있습니다. 코드의 논리성이 언어 학습에 도움을 준다고 합니다.

◦

위키백과도 4.5%의 높은 비중으로 학습에 투입됐는데요, 영문 위키백과는 수많은 참여자의 꼼꼼한 검증으로 고품질 데이터로 인식되고 있습니다.

•

토큰 수를 크게 증가 시킴 (Chinchilla)

◦

토큰수가 많을수록 retrain이 쉬워지고 특정 task에 fine-tuning하기 용이하다고 함

LLAMA의 Architecture

•

토크나이저를 OPT에서 썼던 GPT 스타일의 BBPE에서 센텐스피스로 변경했고 언노운 토큰을 대비해서 폴백 옵션을 붙임!

•

트랜스포머 원 논문과 달리 attention보다 normalization을 먼저 진행 GPT3에서 보였듯이 normalization→ attention이 학습 안정성이 높음.

Megatron-LM도 같은 구조입니다. 그런데 여기서 T5처럼 RMSNorm을 채용했습니다.

아마도 학습 효율에 중점을 둔 것으로 보임.

•

PaLM의 영향을 받아서 activation function도 GEGLU가 아니라 SwiGLU를 사용.

Swish와 GLU를 합친 것인데 Swish는 아래 그림과 같이 ReLU보다 부드러운 곡선을 그림.

GELU와 비슷한데 연산이 간단하다는 장점이 있습니다. 자세한 사항이 궁금하시면 GLU Variants Improve Transformer를 참고!