LM의 성능에 있어서 중요한 요인
•
학습 데이터 (Chinchilla)
◦
웹 크롤 데이터가 합계 82% (정제를 위해 별도의 모델을 구축 = 수집한 페이지가 위키백과의 인용 출처로 쓰일 수 있는가 없는가를 판별하는 분류기를 학습)
◦
다음으로 깃헙이 보이는데요, 요즘 대형 언어모델들은 대개 코드 데이터를 학습에 포함시키고 있습니다. 코드의 논리성이 언어 학습에 도움을 준다고 합니다.
◦
위키백과도 4.5%의 높은 비중으로 학습에 투입됐는데요, 영문 위키백과는 수많은 참여자의 꼼꼼한 검증으로 고품질 데이터로 인식되고 있습니다.
•
토큰 수를 크게 증가 시킴 (Chinchilla)
◦
토큰수가 많을수록 retrain이 쉬워지고 특정 task에 fine-tuning하기 용이하다고 함
LLAMA의 Architecture
•
트랜스포머 원 논문과 달리 attention보다 normalization을 먼저 진행 GPT3에서 보였듯이 normalization→ attention이 학습 안정성이 높음.
아마도 학습 효율에 중점을 둔 것으로 보임.
•