긴 문맥 트랜스포머를 위한 RoPE 베이스 선택 가이드
초록
본 논문은 Rotary Positional Embedding(RoPE)을 복소수 진동기군에 대한 위상 변조로 재해석하고, 이를 통해 길이 수백만 토큰까지 확장 가능한 트랜스포머 설계에 필요한 RoPE 베이스의 하한·상한을 이론적으로 도출한다. 하한은 앨리어싱과 저주파(DC) 위상 안정성에서 비롯되며, 깊은 네트워크에서는 층별 회전이 누적돼 더 큰 베이스가 요구된다. 상한은 부동소수점 정밀도 한계로, 베이스가 지나치게 크면 위상 업데이트가 수치적으로 사라져 위치 정보가 소멸한다. 두 경계 사이의 “골디락스 영역”을 제시하고, LLaMA·Mistral·DeepSeek 등 최신 모델을 실험적으로 검증한다.
상세 분석
이 논문은 RoPE를 복소수 형태로 표현함으로써 각 차원을 고유 주파수를 갖는 진동기(oscillator)로 보는 새로운 시각을 제공한다. 이때 토큰 위치 p는 각 진동기의 위상을 p·θ_i 만큼 선형적으로 이동시키는 위상 변조(phase modulation) 역할을 한다. 고주파 진동기(θ_max)들은 근거리 위치 구분에, 저주파 진동기(θ_min = 1/base)는 장거리 정렬에 결정적이다.
① 앨리어싱 하한: 고주파 진동기의 위상이 2π를 초과하면 동일 위상으로 되돌아가며, 이는 토큰 위치가 서로 구분되지 못하는 ‘앨리어싱’ 현상을 초래한다. 논문은 이를 Nyquist 한계와 동일시하여, 목표 컨텍스트 길이 L에 대해 base ≥ L^{1/(d/2)} 형태의 하한을 제시한다.
② DC‑component 안정성 하한: 저주파 진동기는 작은 위상 변화에도 큰 위치 오차를 일으킬 수 있다. 위상 드리프트가 θ_min·L ≪ 1이어야 하며, 이를 만족하려면 base ≤ 1/(ε·L) (ε는 허용 오차) 형태의 추가 제약이 필요하다. 이 제약은 특히 깊은 모델에서 누적 위상 오차가 기하급수적으로 증폭되는 것을 방지한다.
③ 깊이‑누적 효과: 각 층에서 동일한 RoPE 회전이 적용되므로, N층 트랜스포머에서는 전체 위상 변이가 N·p·θ_i 로 누적된다. 따라서 하한은 깊이에 따라 base ≥ √
댓글 및 학술 토론
Loading comments...
의견 남기기