멀티헤드 어텐션 토큰 선택의 기하학적 분석
초록
본 논문은 대형 언어 모델의 멀티헤드 어텐션을 값‑상태 공간에서 토큰 선택 문제로 바라보고, 선택된 토큰과 비선택 토큰 사이의 기하학적 구분성을 정량화하기 위해 Precision, Recall, F‑score라는 세 가지 메트릭을 정의한다. 안정된 값 노름, 지수형 유사도 감소, 구간별 가중치 프로파일이라는 경험적 가정을 기반으로 차원과 마진에 의존하는 비점근적 경계식을 도출하고, LLaMA‑2‑7B, Gemma‑7B, Mistral‑7B 모델에 대한 실험을 통해 이론적 예측이 실제와 일치함을 보인다. 또한 헤드들을 Retriever, Mixer, Reset 세 유형으로 구분하고, 이를 활용한 헤드 희소화 전략이 기존 방법보다 손실을 적게 만든다.
상세 분석
이 논문은 기존의 어텐션 메커니즘을 변형하지 않고, 토큰 선택을 “top‑N” 방식으로 해석함으로써 새로운 기하학적 관점을 제시한다. 핵심 아이디어는 각 헤드가 값‑상태(value‑state) 공간에서 선택된 토큰 집합 I_N을 중심으로 대표 벡터 s=∑_{i∈I_N}α_i v_i 를 만든 뒤, 선택 토큰과 비선택 토큰이 s 주변에 얼마나 밀집해 있는지를 정밀하게 측정하는 것이다. 이를 위해 정의된 Precision(P)와 Recall(R)은 각각 “선택된 토큰이 반경 r_min 안에 얼마나 많이 포함되는가”, “전체 토큰 중 반경 r_max 안에 있는 토큰 비율이 얼마나 높은가”를 의미한다. r_min과 r_max은 선택·비선택 토큰 사이의 최소·최대 거리로 정의돼, 이론적 분석을 단순화하면서도 직관적인 상한·하한을 제공한다.
가정 1은 값‑상태 벡터의 노름이 토큰마다 거의 일정하고, 오직 첫 번째 토큰(‘sink’)만 λ∈(0,1) 배로 압축된다고 본다. 실험적으로 토큰 노름의 변동계수(CV)가 0.020.03 수준에 머무르는 것을 확인했으며, 이는 노름이 차원 d와 무관하게 일정함을 뒷받침한다. 가정 2는 토큰 간 코사인 유사도가 거리 |i−j|에 대해 e^{−β|i−j|} 형태의 지수 감쇠를 따른다고 설정한다. 이는 실제 코사인 유사도 분포가 평균 절대 오차 510% 수준으로 지수 모델에 잘 맞는다는 실증 결과와 일치한다. 가정 3은 어텐션 가중치 α_i가 네 단계( sink, plateau, oscillation, exponential recency)로 구분되는 piecewise 형태를 띤다고 가정한다. 이 구조는 시각화된 어텐션 질량 분포에서 명확히 드러나며, 각 단계별 파라미터(p_sink, η, ω, T1, T2)로 정량화된다.
이러한 가정 하에 저자들은 마진 Δ와 스케일 B를 정의하고, 정밀도와 재현율에 대한 기대값 상·하한을 정리(정리 1, 정리 2)한다. 핵심은 Δ>0이고 차원 d가 충분히 클 때, E
댓글 및 학술 토론
Loading comments...
의견 남기기