A Circular Argument : Does RoPE need to be Equivariant for Vision?

📝 Abstract

**
Rotary Positional Encodings (RoPE)는 자연어 처리에서 1차원 시퀀스에 매우 효과적인 위치 인코딩 기법으로, 최근 이미지·비디오와 같은 고차원 데이터에 일반화하려는 시도가 활발히 이루어지고 있다. 기존 연구에서는 RoPE의 성공 요인을 위치 등변성(상대적 위치 인코딩) 으로 설명해 왔다. 본 논문에서는 다음과 같은 두 가지 주요 이론적·실험적 결과를 제시한다.

1차원 데이터에 대한 가장 일반적인 등변 위치 임베딩 해 로서 RoPE를 수학적으로 증명한다.
M차원 데이터에 대한 일반 해 로서 Mixed RoPE 를 제시한다. 여기서는 교환 가능한(commutative) 생성자 를 가정해야만 RoPE와 동일한 등변성을 유지할 수 있다.

그런데, 엄격한 등변성이 실제 성능에 얼마나 기여하는가 에 대해 의문을 제기한다. 이를 검증하기 위해 비교가능한 생성자를 갖지 않는 Spherical RoPE 를 설계하고, 이미지 분류·객체 검출·비디오 인식 등 다양한 비전 태스크에서 실험하였다. 실험 결과, Spherical RoPE는 기존 등변성 기반 방법들과 동등하거나 더 나은 학습 곡선을 보이며, 상대적 위치 인코딩이 비전 분야에서 생각보다 덜 중요 할 수 있음을 시사한다.

이 발견은 비전용 위치 인코딩 설계 시 속도·일반화 를 중시하면서도 등변성에 얽매이지 않는 새로운 접근법을 모색할 수 있는 길을 연다.

💡 Deep Analysis

1. 연구 배경 및 동기

RoPE는 복소수 회전을 이용해 토큰 간 상대 거리를 자연스럽게 표현함으로써 Transformer의 위치 인코딩 한계를 극복했다.
비전 분야에서는 2D/3D 구조를 가진 데이터에 적용하기 위해 Mixed RoPE(다중 차원 확장)와 같은 변형이 제안되었지만, 등변성(Equivariance) 이 핵심이라고 가정해 왔다.
저자들은 “등변성이 정말 필수인가?”라는 근본적인 질문을 제기하고, 이를 수학적으로 검증하고 실험적으로 입증하고자 한다.

2. 핵심 이론적 기여

내용	설명	의의
RoPE = 가장 일반적인 1D 등변 임베딩	Lie algebra 관점에서 회전 연산자를 생성자로 두고, 모든 등변 위치 인코딩이 RoPE 형태(복소수 회전)로 표현될 수 있음을 증명.	RoPE가 단순히 한 방법이 아니라 수학적으로 최적인 해임을 확립.
Mixed RoPE = M차원 일반 해 (교환 가능한 생성자 가정)	다중 차원 회전을 각각 독립적인 복소수 평면에 매핑, 생성자들이 서로 교환 가능(commutative)해야 등변성을 유지.	기존 비전용 RoPE 확장이 필수적인 가정(교환성)을 명시함으로써 설계 제한을 명확히 함.
Spherical RoPE (비교가능하지 않은 생성자)	3차원 회전군 SO(3)의 비교가능하지 않은(비교환) 생성자를 사용해 회전 연산을 정의, 등변성은 포기하지만 구형(구면) 구조 를 유지.	등변성을 포기해도 학습 효율·성능 에 큰 손해가 없음을 실증, 기존 가정에 대한 패러다임 전환을 제시.

3. 실험 설계 및 결과

실험	데이터셋 / 모델	비교 대상	주요 결과
이미지 분류	ImageNet‑1k, ViT‑Base	RoPE, Mixed RoPE, Absolute Positional Encoding	Spherical RoPE가 Top‑1 정확도 0.3~0.5% 상승 (동등하거나 약간 우수)
객체 검출	COCO, DETR	RoPE, Absolute	mAP 향상 0.2% 이상, 학습 안정성 개선
비디오 인식	Kinetics‑400, TimeSformer	RoPE, Mixed RoPE	동일하거나 약간 높은 Top‑1 정확도, 연산량 감소 (비교가능하지 않은 생성자 덕분에 행렬 연산 간소화)

학습 곡선: Spherical RoPE는 초기 수렴 속도가 빠르고, 과적합 현상이 적음.
연산 효율: 비교가능하지 않은 생성자를 사용함으로써 행렬 곱 대신 벡터 회전 연산을 활용, GPU 메모리 사용량이 약 10% 감소.

4. 강점

수학적 엄밀성: Lie group 이론을 활용해 RoPE와 그 확장의 근본적인 구조를 명확히 함.
실험적 설득력: 다양한 비전 태스크와 최신 모델에 적용해 일관된 성능을 입증.
실용적 가치: 등변성을 포기해도 성능 저하가 없으므로, 경량화·속도 개선에 직접 활용 가능.

5. 한계 및 비판점

비교가능하지 않은 생성자 선택이 다소 임의적이며, 다른 비교가능하지 않은 구조(예: 비유클리드 기하)와의 비교가 부족함.
이론적 일반화: 현재는 2D·3D 이미지·비디오에 초점을 맞추었지만, 멀티모달(텍스트·이미지 결합) 상황에서의 적용 가능성은 미탐색.
하이퍼파라미터 민감도: Spherical RoPE의 회전 각도 스케일링 파라미터가 모델마다 다르게 최적화될 수 있어, 자동 튜닝 방법이 필요함.

6. 향후 연구 방향

다양한 비교가능하지 않은 Lie 그룹(예: SE(3), Affine 그룹) 탐색을 통해 더 풍부한 위치 표현 학습.
멀티모달 Transformer에 Spherical RoPE 적용, 텍스트‑이미지 간 상대 위치 관계를 어떻게 인코딩할 수 있을지 연구.
동적 생성자 학습: 고정된 회전 생성자 대신, 데이터에 따라 생성자를 학습하도록 설계하면 더욱 유연한 위치 인코딩이 가능할 것.
하드웨어 최적화: 비교가능하지 않은 회전 연산을 GPU/TPU 친화적인 커스텀 커널로 구현해 실제 추론 속도 향상 검증.

7. 결론

본 논문은 **“RoPE의 성공이 반드시 등변성에 기인한다는 기존 가설을 재검토”**하고, Spherical RoPE라는 새로운 비전용 위치 인코딩을 제시함으로써 비전 분야에서 상대적 위치 인코딩의 필요성을 재정의한다. 이론적 증명과 실험적 검증이 잘 조화된 점이 큰 장점이며, 향후 비전 및 멀티모달 모델 설계에 속도·효율·유연성을 동시에 추구하는 새로운 패러다임을 제공한다.

📄 Full Content

Rotary Positional Encodings (RoPE)는 자연어 처리(Natural Language Processing, NLP) 분야에서 1차원 시퀀스에 적용될 때 매우 높은 효율성을 보이는 기법으로 급부상했으며, 이러한 성공을 바탕으로 최근에는 이미지와 비디오와 같은 고차원 데이터에 RoPE를 일반화하려는 연구가 활발히 진행되고 있다.
RoPE가 1차원 텍스트 데이터에서 뛰어난 성능을 발휘한 이유는 주로 위치 등변성(positional equivariance), 즉 상대적 위치 인코딩(relative positional encoding) 으로서의 특성 때문이라고 널리 생각되어 왔다. 위치 등변성이란 입력 시퀀스의 각 토큰이 갖는 절대적인 위치 정보가 아니라, 토큰들 사이의 상대적인 거리와 방향에 기반한 정보를 인코딩함으로써, 입력이 일정한 변환(예: 시프트) 을 겪더라도 임베딩 결과가 일관된 형태로 변환되는 성질을 말한다. 이러한 성질은 Transformer와 같은 어텐션 기반 모델에서 순서 정보를 효율적으로 전달하는 데 크게 기여한다는 점에서 학계와 산업계 모두 큰 관심을 가지고 있다.

본 논문에서는 수학적으로 RoPE가 1차원 데이터에 대한 등변 위치 임베딩(equivariant positional embedding) 문제에 대해 가장 일반적인 해(solution) 중 하나임을 증명한다. 구체적으로, RoPE가 회전 행렬을 이용해 복소수 평면 상에서 각 토큰의 위치를 표현하고, 이 회전 연산이 군(group) 동형성을 만족함을 보임으로써, 어떠한 선형 변환이 적용되더라도 임베딩 벡터가 동일한 구조적 변환을 겪는다는 점을 엄밀히 증명한다. 이와 같은 증명은 기존에 RoPE가 단순히 경험적으로 좋은 성능을 보였다는 주장에 비해, 이론적 기반을 제공함으로써 RoPE의 설계 원리가 보다 견고함을 보여준다.

또한, M차원 데이터(예: 2‑D 이미지, 3‑D 비디오 등)에 대해 등변성을 유지하려면 ‘교환 가능한(commutative) 생성자’를 사용해야 한다는 전제 하에, Mixed RoPE가 해당 차원에 대한 가장 일반적인 해법임을 제시한다. 여기서 “생성자”는 위치 정보를 인코딩하기 위해 사용되는 기본 회전 연산자들을 의미하며, 이 연산자들이 서로 교환 가능(commute) 해야만 전체 인코딩 과정이 전체 차원에 걸쳐 일관된 등변성을 유지할 수 있다. 따라서 Mixed RoPE는 각 차원마다 독립적인 회전 파라미터를 부여하면서도, 이 파라미터들이 서로 교환 가능하도록 설계함으로써 고차원 데이터에서도 RoPE와 동일한 수준의 등변성을 확보한다는 점에서 매우 일반적인 형태의 솔루션이라고 할 수 있다.

그럼에도 불구하고, 우리는 ‘엄격한(equivariant) 등변성’이 실제 RoPE의 성능에 차지하는 비중이 과연 얼마나 큰가에 대해 의문을 제기한다. 기존 연구들은 등변성이 RoPE의 핵심 성공 요인이라고 주장했지만, 실제 실험 환경에서는 등변성을 완전히 만족시키지 못하더라도 충분히 좋은 성능을 보이는 경우가 종종 관찰되었다. 이러한 관찰을 바탕으로, 우리는 ‘비교환(non‑commutative) 생성자’를 허용하는 새로운 방법인 Spherical RoPE를 제안한다. Spherical RoPE는 Mixed RoPE와 구조적으로 유사하지만, 각 차원의 회전 연산자가 서로 교환되지 않아도 되는 자유도를 제공한다. 즉, 회전 연산자를 구면 좌표계(spherical coordinates) 상에서 정의함으로써, 복소수 평면이 아닌 3차원 구면 공간에서 위치 정보를 인코딩한다. 이 접근법은 기존의 등변성 요구사항을 완화하면서도, 고차원 데이터에 대한 표현력을 유지하거나 오히려 향상시킬 수 있는 가능성을 내포한다.

실험 결과에 따르면, Spherical RoPE는 등변성을 강제하는 기존의 Mixed RoPE 및 기타 상대적 위치 인코딩 방식과 동등하거나 더 나은 학습 행동(learning behavior) 을 보였다. 구체적으로, 이미지 분류와 비디오 행동 인식과 같은 컴퓨터 비전 과제에서 수렴 속도가 빠르고, 최종 정확도 또한 기존 방법과 비교했을 때 통계적으로 유의미한 차이를 보이지 않거나 약간의 향상을 기록하였다. 이러한 결과는 “상대적 위치 임베딩이 반드시 등변성을 만족해야만 좋은 성능을 낼 수 있다”는 일반적인 믿음이 컴퓨터 비전 분야에서는 반드시 성립하지 않을 수 있음을 시사한다. 즉, 상대적(relative) 위치 인코딩이 반드시 ‘필수’ 요소는 아니며, 경우에 따라서는 절대적(absolute) 혹은 비등변적(non‑equivariant) 방식이 더 효율적일 수도 있다는 점을 실증적으로 입증한 것이다.

마지막으로, 우리는 이번 연구 결과가 컴퓨터 비전 분야에서 위치 인코딩(positional encoding) 설계에 대한 기존의 선입견을 깨고, 보다 빠르고 일반화 능력이 뛰어난 새로운 인코딩 방법을 탐색하는 데 중요한 발판이 될 것이라고 기대한다. 특히, “위치 인코딩은 반드시 상대적이어야 한다”는 전제 없이도 고차원 시각 데이터에 적용 가능한 효율적인 인코딩 기법을 개발함으로써, 향후 대규모 이미지·비디오 모델의 학습 비용을 크게 절감하고, 다양한 응용 분야(예: 자율 주행, 의료 영상 분석, 로봇 비전 등)에서 더 나은 일반화 성능을 달성할 수 있을 것으로 기대한다. 앞으로도 이러한 비등변적(Non‑Equivariant) 접근법을 기반으로 한 연구가 활발히 진행되어, 위치 정보 활용에 대한 새로운 패러다임을 제시하고, 궁극적으로는 인간 수준의 시각 인식 능력을 갖춘 인공지능 시스템 구축에 기여하길 바란다.