깊은 확률 변환기에서 토큰 군집 현상의 새로운 시각
초록
본 논문은 표준 초기화 방식으로 무작위 초기화된 값 행렬(V)만을 통해 발생하는 내재적 노이즈를 고려하여, 깊은 트랜스포머의 토큰 동역학을 연속 시간 확산 과정으로 수학적으로 분석한다. 레이어마다 1/√L 스케일링과 토큰별 RMS 정규화를 적용한 결과, 무한히 깊어질 때 토큰들은 구면 위에서 공통 행렬 브라운 운동에 의해 구동되는 상호작용 입자 시스템으로 수렴한다. 두 토큰 경우에 한해 상호작용 강도와 차원에 따라 단일 클러스터와 반대극(antipodal) 구성이 확률적으로 전이되는 임계 현상이 존재함을 증명하고, 실험을 통해 다중 토큰에서도 이러한 반대극 구조가 지속됨을 확인한다. 또한, 내재 노이즈를 억제하면 모델 정확도가 저하되는 현상도 보고한다.
상세 분석
본 연구는 기존 이론이 가정한 결정론적 가중치(특히 값 행렬 V)의 고정성을 탈피하고, 실제 트랜스포머에서 사용되는 표준 초기화(예: Glorot, He 초기화)에서 발생하는 무작위성을 직접 모델에 반영한다는 점에서 혁신적이다. 핵심 아이디어는 레이어마다 V 행렬을 i.i.d. 정규분포(또는 절단 정규)로 초기화하고, 잔차 연결에 1/√L 스케일링을 적용함으로써 깊이가 무한대로 갈 때 자연스럽게 확산 한계가 나타난다는 점이다. 이때 토큰별 RMS 정규화는 각 토큰을 단위 구면 S^{d‑1} 위에 투사하고, 토큰 간 상호작용은 주의(attention) 메커니즘을 통해 유지된다. 결과적으로 연속 시간 한계는 다음과 같은 형태의 SDE 시스템이 된다.
dY_i(t) = P_{⊥Y_i(t)}
댓글 및 학술 토론
Loading comments...
의견 남기기