트랜스포머 학습을 위한 핵심 메커니즘 : 이상치 기반 재스케일링의 역할

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델에서 나타나는 ‘attention sink’와 ‘residual sink’라는 두 종류의 이상치가 소프트맥스와 RMSNorm 같은 정규화와 결합해 비이상치 성분을 효과적으로 재스케일한다는 가설을 제시한다. 실험을 통해 정규화를 제거하면 이상치가 사라지지만 학습 안정성이 크게 저하되고, 이상치를 클리핑하거나 억제해도 성능이 떨어짐을 확인한다. 대신 이상치를 학습 가능한 파라미터로 흡수하거나 게이트 기반 재스케일링을 도입하면 학습 효율과 양자화 강인성이 향상된다.

상세 분석

본 연구는 LLM(Large Language Model)에서 관찰되는 두 종류의 극단값, 즉 attention sink (소수 토큰이 지속적으로 높은 어텐션 로짓을 받는 현상)와 residual sink (특정 차원이 대부분 토큰에서 비정상적으로 큰 활성값을 보이는 현상)을 정규화와의 상호작용을 통해 “이상치‑구동 재스케일링(outlier‑driven rescaling)”이라는 통합 메커니즘으로 설명한다. 먼저, 소프트맥스는 입력 로짓의 상대적 크기를 정규화함으로써 하나의 큰 로짓이 전체 확률 분포를 압축하고, 그 결과 다른 토큰들의 값이 상대적으로 축소된다. 이때 attention sink 은 실제로 값 자체가 큰 것이 아니라, 정규화 과정에서 전체 스케일을 조절하는 역할을 수행한다는 것이 기존 연구와 일치한다. 마찬가지로 RMSNorm은 전체 hidden state의 RMS 값을 기준으로 각 차원을 스케일링하는데, 특정 차원에 존재하는 거대한 활성값이 전체 차원의 스케일링 계수를 크게 만들고, 결과적으로 비이상치 차원들의 값이 상대적으로 낮아진다. 이러한 현상을 “residual sink”라 명명하고, 이는 입력‑특정이 아닌 모델‑전역적인 스케일 팩터로 작동한다.

실험에서는 (1) 정규화를 완전히 제거하거나 동적 tanh(DyT) 같은 점별 함수로 대체하면 이상치가 급격히 감소하지만, 학습이 불안정해지고 최종 손실이 크게 악화되는 것을 확인했다. (2) 이상치를 클리핑하거나 직접 억제하면 정규화가 제공하던 스케일링 효과가 사라져 성능 저하가 발생한다. (3) RMSNorm 가중치가 이상치 차원에서는 평균보다 현저히 작은 값(예: 0.006 vs 1)을 갖는 것이 관찰되었으며, 이는 해당 차원이 스케일링 전용임을 수학적으로 증명한 상한선과 일치한다. (4) 학습 가능한 벡터를 정규화 앞에 삽입해 이상치를 파라미터로 흡수하면, 활성값 자체는 작아지지만 동일한 스케일링 효과를 유지할 수 있음을 보였다. (5) 게이트 기반 재스케일링(GatedNorm, GatedAttention 등)을 도입하면 이상치 발생이 자연스럽게 억제되고, 모델 성능이 평균 2 포인트 상승하며, 4비트 정밀도(W4A4) 양자화 시 손실이 1.2 포인트 감소하는 등 양자화 강인성도 크게 향상된다. 특히, SwiGLU와 같은 활성함수 구조가 이상치를 유발하는 반면, 게이트를 명시적으로 도입하면 sigmoid‑GLU도 동등하거나 우수한 성능을 보인다.

이러한 결과는 “이상치‑구동 재스케일링”이 단순한 부작용이 아니라, 트랜스포머 학습에서 필수적인 스케일 조절 메커니즘임을 강력히 시사한다. 따라서 향후 모델 설계 시 이상치를 억제하기보다, 이를 정규화와 연계된 스케일 팩터로 활용하거나, 명시적 게이트를 통해 제어하는 방향이 보다 효율적일 것으로 기대된다.

트랜스포머 학습을 위한 핵심 메커니즘 : 이상치 기반 재스케일링의 역할

초록

상세 분석

댓글 및 학술 토론

의견 남기기