LLM의 주의 집중과 표현 압축, 거대한 활성화가 만든 두 얼굴
초록
본 논문은 대형 언어 모델(Large Language Model)에서 관찰되는 ‘attention sink’와 ‘compression valley’ 현상이 별개의 현상이 아니라, 잔차 스트림(residual stream)에서 발생하는 거대한 활성화(massive activation) 하나에 의해 동시에 유발된다는 통합 이론을 제시한다. 이론적 증명을 통해 거대한 활성화가 특이값 스펙트럼을 지배하고 엔트로피를 크게 감소시킴을 보이고, 410M‑120B 규모의 여러 모델에 대한 실험과 목표(ablation) 연구로 현상들의 동시 발생과 인과관계를 검증한다. 또한, 초기‑중‑후 단계의 세 단계 정보 흐름(Mix‑Compress‑Refine) 모델을 제안해 토큰 처리 과정과 작업별 최적 깊이를 설명한다.
상세 분석
이 논문은 LLM 내부 동역학을 이해하려는 최근 연구 흐름에 중요한 기여를 한다. 먼저, ‘attention sink’와 ‘compression valley’라는 두 현상을 기존에는 각각 위치 편향, 정보 병목 등 별도 메커니즘으로 설명했지만, 저자들은 이 두 현상이 동일한 원인, 즉 특정 토큰(주로 BOS)의 잔차 스트림에서 발생하는 거대한 활성화에 의해 동시에 발생한다는 가설을 제시한다. 이를 뒷받침하기 위해 저자는 잔차 스트림의 L2 노름이 다른 토큰에 비해 수천 배 이상 커지는 순간, 해당 토큰이 행렬 X의 첫 번째 특이값을 지배하게 되고, 특이값 분포가 급격히 한쪽으로 치우쳐 엔트로피가 감소한다는 정리(Theorem 1)를 증명한다. 정리에서 도입된 정규화 비율 c와 정렬도 α는 실제 실험에서 측정된 값과 잘 맞아, 이론적 경계가 실제 현상에 거의 정확히 적용됨을 보여준다.
실험 부분에서는 6가지 모델(Pythia 410M/6.9B, Gemma 7B, LLaMA‑3 8B, Qwen2 7B, Bloom 1.7B 등)과 GSM8K 데이터셋을 사용해 층별 엔트로피, BOS 토큰의 노름, sink‑rate를 동시에 시각화하였다. 모든 모델에서 중간 층(대략 20‑85% 깊이)에서 BOS 노름이 급증하고, 그와 동시에 엔트로피가 급락하며 sink‑rate가 1에 근접하는 현상이 일관되게 관찰되었다. 또한, 학습 초기(1k 스텝)부터 이러한 패턴이 형성되고 이후 지속되는 점을 통해 메커니즘이 학습 과정에서 조기에 학습된 구조적 특성임을 확인한다.
가장 설득력 있는 증거는 목표(ablation) 실험이다. 저자들은 특정 층에서 BOS 토큰에 대한 MLP 출력만을 영(0)으로 만들었을 때, 거대한 활성화가 사라지고 엔트로피 감소와 sink 형성이 동시에 사라지는 것을 보여준다. 이는 인과관계를 명확히 입증하는 강력한 실험 설계라 할 수 있다.
이론과 실험을 종합해 제안된 ‘Mix‑Compress‑Refine’ 프레임워크는 초기 층에서 광범위한 혼합(mixing), 중간 층에서 압축(compression) 및 주의 억제(attention sink), 마지막 층에서 선택적 정제(refinement)라는 세 단계로 LLM의 정보 흐름을 설명한다. 이 모델은 임베딩 작업이 중간 층에서 최적 성능을 보이고, 텍스트 생성은 전체 깊이를 활용해야 한다는 기존 관찰을 자연스럽게 통합한다.
비판적으로 보면, 본 연구는 주로 디코더‑전용 트랜스포머에 국한되어 있어 인코더‑디코더 구조나 멀티모달 모델에 대한 일반화 가능성은 아직 검증되지 않았다. 또한, 거대한 활성화가 왜 특정 토큰에 집중되는지, 즉 학습 목표와 토큰 위치가 어떻게 상호작용하는지에 대한 근본적인 원인 분석은 부족하다. 마지막으로, 제안된 이론이 실제 모델 설계(예: 레이어 수 조정, 정규화 기법 변경)나 효율성 향상에 어떻게 활용될 수 있는지에 대한 구체적인 가이드라인이 부족하다. 그럼에도 불구하고, 두 현상을 하나의 메커니즘으로 통합하고 정량적 경계를 제공한 점은 LLM 해석 연구에 큰 전진을 의미한다.
댓글 및 학술 토론
Loading comments...
의견 남기기