정규직교 자기주의: 스킵 연결 없는 트랜스포머를 위한 새로운 어텐션 메커니즘

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Softmax 기반 자기주의(SSA)의 불안정성을 극복하고, 스킵 연결과 정규화 레이어 없이도 깊은 트랜스포머를 안정적으로 학습할 수 있도록 설계된 Orthogonal Self‑Attention(OSA)를 제안한다. 쿼리‑키 행렬로부터 만든 스큐 대칭 행렬을 행렬 지수 함수를 통해 특수 직교 행렬로 매핑하고, 저‑랭크 구조를 활용해 O(N) 시간·메모리 복잡도를 달성한다. 또한, Jacobian의 조건수를 1에 가깝게 유지하도록 하는 초기화 방식을 이론적으로 증명한다. 간단한 ViT 실험에서 OSA는 스킵 및 레이어 정규화를 제거한 경우에도 기존 모델과 비슷한 학습 속도와 일반화 성능을 보였다.

상세 분석

OSA는 기존 SSA가 초래하는 “랭크 붕괴(rank collapse)”와 불안정한 Jacobian을 근본적으로 해결하려는 시도이다. 핵심 아이디어는 어텐션 행렬 A를 직교 행렬로 제한함으로써 입력 토큰들의 선형 독립성을 유지하고, 역전파 시 신호가 소실·폭발하지 않도록 하는 것이다. 이를 위해 논문은 다음과 같은 수학적 구성을 제시한다.

쿼리 Q와 키 K를 각각 XW_Q, XW_K 로 정의하고, S = α·√(1/d_v)(QKᵀ – KQᵀ) 로 스큐 대칭 행렬을 만든다. 여기서 α는 학습 가능한 스칼라이다.
A = exp(S) 로 행렬 지수 함수를 적용해 S를 특수 직교군 SO(N) 으로 매핑한다. exp(S) 가 직교성을 보장하는 이유는 S가 스큐 대칭이기 때문이다.
S는 Q와 K의 저‑랭크 구조(d_v ≪ N)를 갖기 때문에, rank(S) ≤ 2d_v = r 로 제한된다. Theorem 2.1에 의해 B∈ℝ^{N×r} (Q와 K가 span하는 공간의 정규 직교 기저) 를 이용해 exp(S) = I_N + B (exp(

정규직교 자기주의: 스킵 연결 없는 트랜스포머를 위한 새로운 어텐션 메커니즘

초록

상세 분석

댓글 및 학술 토론

의견 남기기