혼합진법 회전 위치 임베딩으로 긴 문맥 확장

혼합진법 회전 위치 임베딩으로 긴 문맥 확장
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Rotary Position Embedding(RoPE)의 확장 문제를 ‘진법 변환’ 관점에서 통합 이론으로 정리하고, 이를 기반으로 훈련 없이 적용 가능한 두 가지 방법인 MrRoPE‑Uni와 MrRoPE‑Pro를 제안한다. 특히 MrRoPE‑Pro는 중간 차원의 진법 변환을 점진적으로 조정함으로써 128K 토큰까지 85% 이상의 Recall을 유지하며, 기존 대표 방법인 YaRN을 크게 능가한다.

상세 분석

RoPE는 각 차원을 서로 다른 회전 주파수로 매핑해 절대 위치를 회전 각도로 변환하고, 쿼리·키의 내적을 통해 상대 위치를 인코딩한다. 이때 차원이 커질수록 회전 주기가 길어지며, 학습 시 관찰되지 않은 고주파 차원은 “완전 사이클”을 경험하지 못해 긴 시퀀스에 대한 일반화가 실패한다는 것이 기존 연구들의 공통된 지적이다. 논문은 이러한 현상을 ‘진법(radix) 변환’에 비유한다. 구체적으로, RoPE의 각 차원 j에 대한 각도 mθ_j 는 m·b − (j‑1)·D_r (mod 2π) 형태이며, 이는 숫자를 β‑진법으로 표현할 때 각 자리수 (m·β − (j‑1)·k (mod β))와 구조적으로 동일하다. 여기서 β = b^{1/D_r} 로 정의되며, b는 기존 RoPE에서 사용되는 기본 주파수(보통 10 000)이다.

이 관점에서 “진법 변환 팩터 λ_j”를 도입하면, 각 차원의 베이스를 개별적으로 확대·축소할 수 있다. λ_j > 1이면 해당 차원의 회전 주기가 늘어나 고주파 차원의 OOD 문제를 완화하고, λ_j < 1이면 주기를 압축해 저주파 차원의 정보를 보존한다. 논문은 기존 확장 기법들을 모두 λ_j 시퀀스로 표현한다. 예를 들어, NTK‑aware Interpolation은 모든 차원에 동일한 λ_j = S^{1/D_r} 를 적용해 균일하게 스케일링하고, YaRN은 저주파·고주파는 λ_j = 1(변환 없음)으로 두고, 중간 차원에만 선형 보간식 λ_j = r_j·S 를 적용한다.

이러한 통합 모델을 바탕으로 저자는 두 가지 새로운 전략을 설계한다.
1️⃣ MrRoPE‑Uni: 중간 차원에 동일한 λ_j = c 를 적용해 전체 스케일 팩터 S를 만족하도록 한다. 이는 기존 NTK‑aware와 유사하지만, 저·고주파 영역을 그대로 유지하면서 중간 차원의 왜곡을 최소화한다.
2️⃣ MrRoPE‑Pro: 중간 차원에 점진적(arithmetic progression) λ_j = S·ε_j 를 부여한다. ε_j는 차원 인덱스에 따라 선형적으로 증가하도록 설계돼, 저주파(고차원)에서는 작은 확대, 고주파(저차원)에서는 큰 확대를 제공한다. 수식적으로 ε_j = 2(1 + j − d_l) /


댓글 및 학술 토론

Loading comments...

의견 남기기