길이 확장 LLM을 위한 부드러운 RoPE 클리핑

길이 확장 LLM을 위한 부드러운 RoPE 클리핑
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Rotary Positional Embedding(RoPE)의 저주파 성분이 긴 컨텍스트에서 발생시키는 OOD(Out‑of‑Distribution) 문제와 의미적 주의력 감소를 하나의 근본 원인으로 규명한다. 이를 해결하기 위해 저주파 성분을 부드럽게 감쇠시키는 Soft‑Clipping 기법인 CoPE를 제안하고, 256k 토큰까지 확장된 컨텍스트에서 기존 RoPE 대비 2배에 가까운 성능 향상을 입증한다.

상세 분석

RoPE는 차원을 2‑차원 청크로 나누고 각 청크에 서로 다른 회전 주파수 θᵢ = b^{‑2i/d} 를 부여한다. 사전 학습 시 컨텍스트 길이 L_pre 보다 큰 주기를 갖는 저주파 청크는 한 번도 완전 회전을 경험하지 못해, 추론 단계에서 새로운 위치에 적용될 때 OOD 현상이 발생한다. 논문은 이러한 저주파 성분이 실제로는 의미적 정보를 전달하는 주요 채널이며, 상대 거리 Δt 가 커질수록 ∑cos(Δt θᵢ) 값이 감소해 ‘장기 의미 감쇠(long‑term decay)’가 일어난다는 정리를 제시한다. 기존 연구들은 OOD 완화를 위해 주파수 스케일링(PI, NTK, YaRN 등)이나 베이스 주파수 상승(ABF) 등을 제안했지만, 각각 저주파와 고주파를 다르게 다루는 복잡한 설계가 필요했다.

CoPE는 이 두 흐름을 하나로 통합한다. 저주파 성분을 ‘하드 클리핑’(완전 차단) 대신, 클리핑 시작점 θ_c 이후에 부드러운 감쇠 함수 g(θ)=1/(1+α·(θ_c‑θ)) 와 같은 형태를 적용한다. 이렇게 하면 급격한 스펙트럼 차단으로 발생하는 ‘깁스 현상’(ringing)과 같은 스펙트럼 누수를 방지하면서, 저주파가 야기하는 OOD 아웃라이어와 의미 손실을 동시에 완화한다. 이론적으로는 NUDFT 관점에서 주파수 필터링이 sinc 함수 형태의 오차 E(τ) 를 유발하는데, 부드러운 감쇠는 E(τ) 의 크기를 크게 줄여 주어 장거리 어텐션이 안정적으로 유지된다.

실험에서는 Qwen‑3 레시피와 동일하게 ABF를 학습 단계에, YaRN을 테스트 단계에 적용한 뒤 RoPE를 CoPE로 교체하였다. 8k, 16k, 32k, 64k, 128k, 256k 등 다양한 길이에서 벤치마크(예: 정밀도, 퍼플렉시티, 코드 생성) 성능이 일관되게 향상되었으며, 특히 256k에서는 기존 RoPE 대비 약 1.9× 의 점수를 기록했다. 이는 저주파를 부드럽게 억제함으로써 OOD와 의미 감쇠 두 문제를 동시에 해결했음을 실증한다.

핵심 인사이트는 ‘저주파 성분이 길이 일반화의 병목’이라는 점이다. 이를 단순히 감쇠시키는 것만으로도 복잡한 주파수 스케일링 없이도 장거리 컨텍스트에서의 성능을 크게 끌어올릴 수 있다. CoPE는 기존 모델에 플러그‑인 방식으로 적용 가능하며, 추가 학습 없이도 즉시 이득을 제공한다는 점에서 실용성이 높다.


댓글 및 학술 토론

Loading comments...

의견 남기기