노이즈 데이터가 대형 언어 모델 사전학습 손실 발산에 미치는 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 웹 규모 코퍼스에 포함된 무작위 노이즈가 LLM 사전학습 중 손실 발산을 유발할 수 있음을 실험적으로 입증한다. 노이즈 유형·비율·모델 규모를 체계적으로 변형해 480 M‑5.2 B 파라미터 모델에 적용했으며, 노이즈가 손실 발산 확률을 크게 높이고, 특히 깊은 모델에서 민감함이 증가함을 확인했다. 또한 고학습률에 의한 발산과는 다른 활성화 패턴을 보이며, 이를 구분할 수 있는 진단 방법을 제시한다.

상세 분석

이 논문은 대규모 언어 모델(LLM) 사전학습 과정에서 데이터 품질이 학습 안정성에 미치는 영향을 정량적으로 규명한다는 점에서 의미가 크다. 저자들은 “균일 무작위 노이즈”라는 가정을 두고, 실제 웹 크롤링 데이터에서 추출하기 어려운 순수 노이즈를 토크나이저 어휘집합(V)에서 제한된 서브셋(V_N)을 무작위 샘플링해 합성한다. 노이즈 삽입 방식은 두 가지(삽입 vs. 덮어쓰기)로 구현했으며, 삽입 방식이 더 높은 발산 확률을 보였다.

핵심 실험은 540 M 파라미터 밀집 모델을 기준으로 노이즈 어휘 크기(|V_N|)와 노이즈 비율(α)을 변동시켜 손실 발산 여부를 20개의 시드로 반복 측정한 것이다. 결과는 어휘 크기가 작을수록(예: |V_N|=5) 발산 확률이 급격히 상승하고, 어휘 내용 자체(빈도 차이)는 발산에 거의 영향을 미치지 않음을 보여준다. 이는 노이즈가 “희소”하게 나타날 때 모델이 비정상적인 패턴을 학습하기 쉬워진다는 가설을 뒷받침한다.

스케일링 실험에서는 모델 깊이와 폭을 독립적으로 늘려 민감도를 분석했다. 폭을 확대해 파라미터 수를 늘려도 발산률 변화는 미미했지만, 층 수를 늘릴수록(특히 35층, 2.5 B 파라미터) 발산 확률이 현저히 증가했다. 이는 깊은 트랜스포머가 그래디언트 흐름과 활성화 분포에 더 취약함을 시사한다. 또한 노이즈 비율을 5%에서 55%까지 증가시켰을 때, 모든 모델에서 발산률이 비례적으로 상승했으며, 작은 모델(480 M)도 55% 노이즈에서는 일정 수준 이상의 발산을 보였다.

고학습률에 의한 발산과 노이즈에 의한 발산을 구분하기 위해 저자들은 활성화 로그잇(attention logit)과 레이어별 평균 활성값을 비교했다. 고학습률 경우 특정 레이어에서 급격한 로그잇 폭증이 관찰되는 반면, 노이즈 경우 전체 레이어에 걸쳐 완만하지만 지속적인 활성화 변동이 나타났다. 이러한 차이는 실무에서 학습이 불안정해졌을 때 원인을 빠르게 파악하는 데 활용될 수 있다.

마지막으로, 밀집 모델과 파라미터 매칭 MoE 모델을 동일한 노이즈 조건에 놓았을 때, 두 아키텍처 모두 비슷한 발산 확률을 보였다. 이는 MoE가 전문가 라우팅을 통해 일부 파라미터를 비활성화하더라도, 노이즈가 전체 학습 흐름에 미치는 영향은 근본적으로 동일하다는 점을 의미한다.

전반적으로 이 논문은 (1) 노이즈가 손실 발산을 일으킬 수 있음, (2) 노이즈 유형·비율·모델 깊이가 발산 위험을 결정, (3) 고학습률과 구별되는 활성화 패턴을 제공, (4) 밀집·MoE 모두에 적용 가능한 진단 프레임워크를 제시한다는 네 가지 주요 기여를 한다. 이러한 결과는 대규모 LLM 구축 시 데이터 정제와 노이즈 검출의 중요성을 과학적으로 뒷받침하며, 향후 자동화된 데이터 품질 평가 도구 개발에 실질적인 토대를 제공한다.

노이즈 데이터가 대형 언어 모델 사전학습 손실 발산에 미치는 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기