이중 초점 주의: 기하와 스펙트럼 위치 임베딩의 조화
초록
**
본 논문은 기존 Rotary Positional Embedding(RoPE)의 고정된 기하학적 주파수 설계가 장거리 알고리즘적 추론에 한계를 만든다는 ‘스펙트럼 강직성’ 문제를 제기한다. 이를 해결하기 위해 기하학적 정보를 담당하는 ‘Geometric Eyes’와 장거리 구조를 추적하는 ‘Spectral Eyes’를 결합한 Bifocal Attention을 제안하고, 주파수를 학습 가능한 파라미터로 전환하는 Spectral‑Evolution 훈련 방식을 소개한다. 합성 형식 언어 실험에서 기존 모델 대비 99% 이상 오류 감소를 달성하였다.
**
상세 분석
**
논문은 RoPE가 토큰 간 상대 거리 (m-n) 에 대해 (\cos(\theta (m-n))) 형태의 회전을 적용함으로써 근접 토큰에 높은 어텐션 점수를 부여하는 기하학적 메커니즘을 사용한다는 점을 정확히 짚는다. 그러나 (\theta)가 고정된 기하급수적 감소(보통 (10^4) 또는 (5\times10^5))이기 때문에, 길이가 수십에서 수백 토큰에 이르는 재귀적 구조에서는 회전 각이 무작위에 가깝게 변해 신호가 소멸한다. 저자는 이를 ‘파장 불일치(wavelength mismatch)’라 명명하고, 알고리즘적 논리에서 요구되는 특정 주기 (N) 에 대해 (\cos(\omega N)\approx1) 을 만족하는 주파수 (\omega) 가 필요함을 이론적으로 증명한다.
이를 해결하기 위해 제안된 Spectral‑RoPE 엔진은 기존 RoPE의 고정 주파수 텐서를 (\Omega\in\mathbb{R}^{d/2}) 로 교체하고, 진폭 (A) 와 위상 (\Phi) 도 학습 가능한 파라미터로 두어 다음과 같은 형태로 회전을 수행한다.
\
댓글 및 학술 토론
Loading comments...
의견 남기기