A Circular Argument : Does RoPE need to be Equivariant for Vision?

A Circular Argument : Does RoPE need to be Equivariant for Vision?

πŸ“ Abstract

**
Rotary Positional Encodings (RoPE)λŠ” μžμ—°μ–΄ μ²˜λ¦¬μ—μ„œ 1차원 μ‹œν€€μŠ€μ— 맀우 효과적인 μœ„μΉ˜ 인코딩 κΈ°λ²•μœΌλ‘œ, 졜근 μ΄λ―Έμ§€Β·λΉ„λ””μ˜€μ™€ 같은 고차원 데이터에 μΌλ°˜ν™”ν•˜λ €λŠ” μ‹œλ„κ°€ ν™œλ°œνžˆ 이루어지고 μžˆλ‹€. κΈ°μ‘΄ μ—°κ΅¬μ—μ„œλŠ” RoPE의 성곡 μš”μΈμ„ μœ„μΉ˜ λ“±λ³€μ„±(μƒλŒ€μ  μœ„μΉ˜ 인코딩) 으둜 μ„€λͺ…ν•΄ μ™”λ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” λ‹€μŒκ³Ό 같은 두 κ°€μ§€ μ£Όμš” μ΄λ‘ μ Β·μ‹€ν—˜μ  κ²°κ³Όλ₯Ό μ œμ‹œν•œλ‹€.

  1. 1차원 데이터에 λŒ€ν•œ κ°€μž₯ 일반적인 λ“±λ³€ μœ„μΉ˜ μž„λ² λ”© ν•΄ λ‘œμ„œ RoPEλ₯Ό μˆ˜ν•™μ μœΌλ‘œ 증λͺ…ν•œλ‹€.
  2. M차원 데이터에 λŒ€ν•œ 일반 ν•΄ λ‘œμ„œ Mixed RoPE λ₯Ό μ œμ‹œν•œλ‹€. μ—¬κΈ°μ„œλŠ” κ΅ν™˜ κ°€λŠ₯ν•œ(commutative) μƒμ„±μž λ₯Ό κ°€μ •ν•΄μ•Όλ§Œ RoPE와 λ™μΌν•œ 등변성을 μœ μ§€ν•  수 μžˆλ‹€.

그런데, μ—„κ²©ν•œ 등변성이 μ‹€μ œ μ„±λŠ₯에 μ–Όλ§ˆλ‚˜ κΈ°μ—¬ν•˜λŠ”κ°€ 에 λŒ€ν•΄ μ˜λ¬Έμ„ μ œκΈ°ν•œλ‹€. 이λ₯Ό κ²€μ¦ν•˜κΈ° μœ„ν•΄ 비ꡐ가λŠ₯ν•œ μƒμ„±μžλ₯Ό κ°–μ§€ μ•ŠλŠ” Spherical RoPE λ₯Ό μ„€κ³„ν•˜κ³ , 이미지 λΆ„λ₯˜Β·κ°μ²΄ κ²€μΆœΒ·λΉ„λ””μ˜€ 인식 λ“± λ‹€μ–‘ν•œ λΉ„μ „ νƒœμŠ€ν¬μ—μ„œ μ‹€ν—˜ν•˜μ˜€λ‹€. μ‹€ν—˜ κ²°κ³Ό, Spherical RoPEλŠ” κΈ°μ‘΄ λ“±λ³€μ„± 기반 방법듀과 λ™λ“±ν•˜κ±°λ‚˜ 더 λ‚˜μ€ ν•™μŠ΅ 곑선을 보이며, μƒλŒ€μ  μœ„μΉ˜ 인코딩이 λΉ„μ „ λΆ„μ•Όμ—μ„œ 생각보닀 덜 μ€‘μš” ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•œλ‹€.

이 λ°œκ²¬μ€ λΉ„μ „μš© μœ„μΉ˜ 인코딩 섀계 μ‹œ μ†λ„Β·μΌλ°˜ν™” λ₯Ό μ€‘μ‹œν•˜λ©΄μ„œλ„ 등변성에 얽맀이지 μ•ŠλŠ” μƒˆλ‘œμš΄ 접근법을 λͺ¨μƒ‰ν•  수 μžˆλŠ” 길을 μ—°λ‹€.


**

πŸ’‘ Deep Analysis

**

1. 연ꡬ λ°°κ²½ 및 동기

  • RoPEλŠ” λ³΅μ†Œμˆ˜ νšŒμ „μ„ μ΄μš©ν•΄ 토큰 κ°„ μƒλŒ€ 거리λ₯Ό μžμ—°μŠ€λŸ½κ²Œ ν‘œν˜„ν•¨μœΌλ‘œμ¨ Transformer의 μœ„μΉ˜ 인코딩 ν•œκ³„λ₯Ό κ·Ήλ³΅ν–ˆλ‹€.
  • λΉ„μ „ λΆ„μ•Όμ—μ„œλŠ” 2D/3D ꡬ쑰λ₯Ό κ°€μ§„ 데이터에 μ μš©ν•˜κΈ° μœ„ν•΄ Mixed RoPE(닀쀑 차원 ν™•μž₯)와 같은 λ³€ν˜•μ΄ μ œμ•ˆλ˜μ—ˆμ§€λ§Œ, λ“±λ³€μ„±(Equivariance) 이 핡심이라고 κ°€μ •ν•΄ μ™”λ‹€.
  • μ €μžλ“€μ€ β€œλ“±λ³€μ„±μ΄ 정말 ν•„μˆ˜μΈκ°€?β€λΌλŠ” 근본적인 μ§ˆλ¬Έμ„ μ œκΈ°ν•˜κ³ , 이λ₯Ό μˆ˜ν•™μ μœΌλ‘œ κ²€μ¦ν•˜κ³  μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•˜κ³ μž ν•œλ‹€.

2. 핡심 이둠적 κΈ°μ—¬

λ‚΄μš© μ„€λͺ… 의의
RoPE = κ°€μž₯ 일반적인 1D λ“±λ³€ μž„λ² λ”© Lie algebra κ΄€μ μ—μ„œ νšŒμ „ μ—°μ‚°μžλ₯Ό μƒμ„±μžλ‘œ 두고, λͺ¨λ“  λ“±λ³€ μœ„μΉ˜ 인코딩이 RoPE ν˜•νƒœ(λ³΅μ†Œμˆ˜ νšŒμ „)둜 ν‘œν˜„λ  수 μžˆμŒμ„ 증λͺ…. RoPEκ°€ λ‹¨μˆœνžˆ ν•œ 방법이 μ•„λ‹ˆλΌ μˆ˜ν•™μ μœΌλ‘œ 졜적인 ν•΄μž„μ„ 확립.
Mixed RoPE = M차원 일반 ν•΄ (κ΅ν™˜ κ°€λŠ₯ν•œ μƒμ„±μž κ°€μ •) 닀쀑 차원 νšŒμ „μ„ 각각 독립적인 λ³΅μ†Œμˆ˜ 평면에 λ§€ν•‘, μƒμ„±μžλ“€μ΄ μ„œλ‘œ κ΅ν™˜ κ°€λŠ₯(commutative)ν•΄μ•Ό 등변성을 μœ μ§€. κΈ°μ‘΄ λΉ„μ „μš© RoPE ν™•μž₯이 ν•„μˆ˜μ μΈ κ°€μ •(κ΅ν™˜μ„±)을 λͺ…μ‹œν•¨μœΌλ‘œμ¨ 섀계 μ œν•œμ„ λͺ…ν™•νžˆ 함.
Spherical RoPE (비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ μƒμ„±μž) 3차원 νšŒμ „κ΅° SO(3)의 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€(λΉ„κ΅ν™˜) μƒμ„±μžλ₯Ό μ‚¬μš©ν•΄ νšŒμ „ 연산을 μ •μ˜, 등변성은 ν¬κΈ°ν•˜μ§€λ§Œ κ΅¬ν˜•(ꡬ면) ꡬ쑰 λ₯Ό μœ μ§€. 등변성을 포기해도 ν•™μŠ΅ νš¨μœ¨Β·μ„±λŠ₯ 에 큰 손해가 μ—†μŒμ„ 싀증, κΈ°μ‘΄ 가정에 λŒ€ν•œ νŒ¨λŸ¬λ‹€μž„ μ „ν™˜μ„ μ œμ‹œ.

3. μ‹€ν—˜ 섀계 및 κ²°κ³Ό

μ‹€ν—˜ 데이터셋 / λͺ¨λΈ 비ꡐ λŒ€μƒ μ£Όμš” κ²°κ³Ό
이미지 λΆ„λ₯˜ ImageNet‑1k, ViT‑Base RoPE, Mixed RoPE, Absolute Positional Encoding Spherical RoPEκ°€ Top‑1 정확도 0.3~0.5% μƒμŠΉ (λ™λ“±ν•˜κ±°λ‚˜ μ•½κ°„ 우수)
객체 κ²€μΆœ COCO, DETR RoPE, Absolute mAP ν–₯상 0.2% 이상, ν•™μŠ΅ μ•ˆμ •μ„± κ°œμ„ 
λΉ„λ””μ˜€ 인식 Kinetics‑400, TimeSformer RoPE, Mixed RoPE λ™μΌν•˜κ±°λ‚˜ μ•½κ°„ 높은 Top‑1 정확도, μ—°μ‚°λŸ‰ κ°μ†Œ (비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ μƒμ„±μž 덕뢄에 ν–‰λ ¬ μ—°μ‚° κ°„μ†Œν™”)
  • ν•™μŠ΅ 곑선: Spherical RoPEλŠ” 초기 수렴 속도가 λΉ λ₯΄κ³ , 과적합 ν˜„μƒμ΄ 적음.
  • μ—°μ‚° 효율: 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ μƒμ„±μžλ₯Ό μ‚¬μš©ν•¨μœΌλ‘œμ¨ ν–‰λ ¬ κ³± λŒ€μ‹  벑터 νšŒμ „ 연산을 ν™œμš©, GPU λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ΄ μ•½ 10% κ°μ†Œ.

4. 강점

  1. μˆ˜ν•™μ  μ—„λ°€μ„±: Lie group 이둠을 ν™œμš©ν•΄ RoPE와 κ·Έ ν™•μž₯의 근본적인 ꡬ쑰λ₯Ό λͺ…ν™•νžˆ 함.
  2. μ‹€ν—˜μ  섀득λ ₯: λ‹€μ–‘ν•œ λΉ„μ „ νƒœμŠ€ν¬μ™€ μ΅œμ‹  λͺ¨λΈμ— μ μš©ν•΄ μΌκ΄€λœ μ„±λŠ₯을 μž…μ¦.
  3. μ‹€μš©μ  κ°€μΉ˜: 등변성을 포기해도 μ„±λŠ₯ μ €ν•˜κ°€ μ—†μœΌλ―€λ‘œ, κ²½λŸ‰ν™”Β·μ†λ„ κ°œμ„ μ— 직접 ν™œμš© κ°€λŠ₯.

5. ν•œκ³„ 및 λΉ„νŒμ 

  • 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ μƒμ„±μž 선택이 λ‹€μ†Œ μž„μ˜μ μ΄λ©°, λ‹€λ₯Έ 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ ꡬ쑰(예: λΉ„μœ ν΄λ¦¬λ“œ κΈ°ν•˜)μ™€μ˜ 비ꡐ가 뢀쑱함.
  • 이둠적 μΌλ°˜ν™”: ν˜„μž¬λŠ” 2DΒ·3D μ΄λ―Έμ§€Β·λΉ„λ””μ˜€μ— μ΄ˆμ μ„ λ§žμΆ”μ—ˆμ§€λ§Œ, λ©€ν‹°λͺ¨λ‹¬(ν…μŠ€νŠΈΒ·μ΄λ―Έμ§€ κ²°ν•©) μƒν™©μ—μ„œμ˜ 적용 κ°€λŠ₯성은 미탐색.
  • ν•˜μ΄νΌνŒŒλΌλ―Έν„° 민감도: Spherical RoPE의 νšŒμ „ 각도 μŠ€μΌ€μΌλ§ νŒŒλΌλ―Έν„°κ°€ λͺ¨λΈλ§ˆλ‹€ λ‹€λ₯΄κ²Œ μ΅œμ ν™”λ  수 μžˆμ–΄, μžλ™ νŠœλ‹ 방법이 ν•„μš”ν•¨.

6. ν–₯ν›„ 연ꡬ λ°©ν–₯

  1. λ‹€μ–‘ν•œ 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ Lie κ·Έλ£Ή(예: SE(3), Affine κ·Έλ£Ή) 탐색을 톡해 더 ν’λΆ€ν•œ μœ„μΉ˜ ν‘œν˜„ ν•™μŠ΅.
  2. λ©€ν‹°λͺ¨λ‹¬ Transformer에 Spherical RoPE 적용, ν…μŠ€νŠΈβ€‘μ΄λ―Έμ§€ κ°„ μƒλŒ€ μœ„μΉ˜ 관계λ₯Ό μ–΄λ–»κ²Œ 인코딩할 수 μžˆμ„μ§€ 연ꡬ.
  3. 동적 μƒμ„±μž ν•™μŠ΅: κ³ μ •λœ νšŒμ „ μƒμ„±μž λŒ€μ‹ , 데이터에 따라 μƒμ„±μžλ₯Ό ν•™μŠ΅ν•˜λ„λ‘ μ„€κ³„ν•˜λ©΄ λ”μš± μœ μ—°ν•œ μœ„μΉ˜ 인코딩이 κ°€λŠ₯ν•  것.
  4. ν•˜λ“œμ›¨μ–΄ μ΅œμ ν™”: 비ꡐ가λŠ₯ν•˜μ§€ μ•Šμ€ νšŒμ „ 연산을 GPU/TPU μΉœν™”μ μΈ μ»€μŠ€ν…€ μ»€λ„λ‘œ κ΅¬ν˜„ν•΄ μ‹€μ œ μΆ”λ‘  속도 ν–₯상 검증.

7. κ²°λ‘ 

λ³Έ 논문은 **β€œRoPE의 성곡이 λ°˜λ“œμ‹œ 등변성에 κΈ°μΈν•œλ‹€λŠ” κΈ°μ‘΄ 가섀을 μž¬κ²€ν† β€**ν•˜κ³ , Spherical RoPEλΌλŠ” μƒˆλ‘œμš΄ λΉ„μ „μš© μœ„μΉ˜ 인코딩을 μ œμ‹œν•¨μœΌλ‘œμ¨ λΉ„μ „ λΆ„μ•Όμ—μ„œ μƒλŒ€μ  μœ„μΉ˜ μΈμ½”λ”©μ˜ ν•„μš”μ„±μ„ μž¬μ •μ˜ν•œλ‹€. 이둠적 증λͺ…κ³Ό μ‹€ν—˜μ  검증이 잘 μ‘°ν™”λœ 점이 큰 μž₯점이며, ν–₯ν›„ λΉ„μ „ 및 λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈ 섀계에 μ†λ„Β·νš¨μœ¨Β·μœ μ—°μ„±μ„ λ™μ‹œμ— μΆ”κ΅¬ν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œκ³΅ν•œλ‹€.


**

πŸ“„ Full Content

Rotary Positional Encodings (RoPE)λŠ” μžμ—°μ–΄ 처리(Natural Language Processing, NLP) λΆ„μ•Όμ—μ„œ 1차원 μ‹œν€€μŠ€μ— 적용될 λ•Œ 맀우 높은 νš¨μœ¨μ„±μ„ λ³΄μ΄λŠ” κΈ°λ²•μœΌλ‘œ κΈ‰λΆ€μƒν–ˆμœΌλ©°, μ΄λŸ¬ν•œ 성곡을 λ°”νƒ•μœΌλ‘œ μ΅œκ·Όμ—λŠ” 이미지와 λΉ„λ””μ˜€μ™€ 같은 고차원 데이터에 RoPEλ₯Ό μΌλ°˜ν™”ν•˜λ €λŠ” 연ꡬ가 ν™œλ°œνžˆ μ§„ν–‰λ˜κ³  μžˆλ‹€.
RoPEκ°€ 1차원 ν…μŠ€νŠΈ λ°μ΄ν„°μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ°œνœ˜ν•œ μ΄μœ λŠ” 주둜 μœ„μΉ˜ λ“±λ³€μ„±(positional equivariance), 즉 μƒλŒ€μ  μœ„μΉ˜ 인코딩(relative positional encoding) μœΌλ‘œμ„œμ˜ νŠΉμ„± λ•Œλ¬Έμ΄λΌκ³  널리 μƒκ°λ˜μ–΄ μ™”λ‹€. μœ„μΉ˜ λ“±λ³€μ„±μ΄λž€ μž…λ ₯ μ‹œν€€μŠ€μ˜ 각 토큰이 κ°–λŠ” μ ˆλŒ€μ μΈ μœ„μΉ˜ 정보가 μ•„λ‹ˆλΌ, 토큰듀 μ‚¬μ΄μ˜ μƒλŒ€μ μΈ 거리와 λ°©ν–₯에 κΈ°λ°˜ν•œ 정보λ₯Ό μΈμ½”λ”©ν•¨μœΌλ‘œμ¨, μž…λ ₯이 μΌμ •ν•œ λ³€ν™˜(예: μ‹œν”„νŠΈ) 을 κ²ͺ더라도 μž„λ² λ”© κ²°κ³Όκ°€ μΌκ΄€λœ ν˜•νƒœλ‘œ λ³€ν™˜λ˜λŠ” μ„±μ§ˆμ„ λ§ν•œλ‹€. μ΄λŸ¬ν•œ μ„±μ§ˆμ€ Transformer와 같은 μ–΄ν…μ…˜ 기반 λͺ¨λΈμ—μ„œ μˆœμ„œ 정보λ₯Ό 효율적으둜 μ „λ‹¬ν•˜λŠ” 데 크게 κΈ°μ—¬ν•œλ‹€λŠ” μ μ—μ„œ 학계와 산업계 λͺ¨λ‘ 큰 관심을 κ°€μ§€κ³  μžˆλ‹€.

λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μˆ˜ν•™μ μœΌλ‘œ RoPEκ°€ 1차원 데이터에 λŒ€ν•œ λ“±λ³€ μœ„μΉ˜ μž„λ² λ”©(equivariant positional embedding) λ¬Έμ œμ— λŒ€ν•΄ κ°€μž₯ 일반적인 ν•΄(solution) 쀑 ν•˜λ‚˜μž„μ„ 증λͺ…ν•œλ‹€. ꡬ체적으둜, RoPEκ°€ νšŒμ „ 행렬을 μ΄μš©ν•΄ λ³΅μ†Œμˆ˜ 평면 μƒμ—μ„œ 각 ν† ν°μ˜ μœ„μΉ˜λ₯Ό ν‘œν˜„ν•˜κ³ , 이 νšŒμ „ 연산이 κ΅°(group) λ™ν˜•μ„±μ„ λ§Œμ‘±ν•¨μ„ λ³΄μž„μœΌλ‘œμ¨, μ–΄λ– ν•œ μ„ ν˜• λ³€ν™˜μ΄ μ μš©λ˜λ”λΌλ„ μž„λ² λ”© 벑터가 λ™μΌν•œ ꡬ쑰적 λ³€ν™˜μ„ κ²ͺλŠ”λ‹€λŠ” 점을 μ—„λ°€νžˆ 증λͺ…ν•œλ‹€. 이와 같은 증λͺ…은 기쑴에 RoPEκ°€ λ‹¨μˆœνžˆ κ²½ν—˜μ μœΌλ‘œ 쒋은 μ„±λŠ₯을 λ³΄μ˜€λ‹€λŠ” μ£Όμž₯에 λΉ„ν•΄, 이둠적 κΈ°λ°˜μ„ μ œκ³΅ν•¨μœΌλ‘œμ¨ RoPE의 섀계 원리가 보닀 견고함을 보여쀀닀.

λ˜ν•œ, M차원 데이터(예: 2‑D 이미지, 3‑D λΉ„λ””μ˜€ λ“±)에 λŒ€ν•΄ 등변성을 μœ μ§€ν•˜λ €λ©΄ β€˜κ΅ν™˜ κ°€λŠ₯ν•œ(commutative) μƒμ„±μžβ€™λ₯Ό μ‚¬μš©ν•΄μ•Ό ν•œλ‹€λŠ” μ „μ œ ν•˜μ—, Mixed RoPEκ°€ ν•΄λ‹Ή 차원에 λŒ€ν•œ κ°€μž₯ 일반적인 ν•΄λ²•μž„μ„ μ œμ‹œν•œλ‹€. μ—¬κΈ°μ„œ β€œμƒμ„±μžβ€λŠ” μœ„μΉ˜ 정보λ₯Ό μΈμ½”λ”©ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” κΈ°λ³Έ νšŒμ „ μ—°μ‚°μžλ“€μ„ μ˜λ―Έν•˜λ©°, 이 μ—°μ‚°μžλ“€μ΄ μ„œλ‘œ κ΅ν™˜ κ°€λŠ₯(commute) ν•΄μ•Όλ§Œ 전체 인코딩 과정이 전체 차원에 걸쳐 μΌκ΄€λœ 등변성을 μœ μ§€ν•  수 μžˆλ‹€. λ”°λΌμ„œ Mixed RoPEλŠ” 각 μ°¨μ›λ§ˆλ‹€ 독립적인 νšŒμ „ νŒŒλΌλ―Έν„°λ₯Ό λΆ€μ—¬ν•˜λ©΄μ„œλ„, 이 νŒŒλΌλ―Έν„°λ“€μ΄ μ„œλ‘œ κ΅ν™˜ κ°€λŠ₯ν•˜λ„λ‘ μ„€κ³„ν•¨μœΌλ‘œμ¨ 고차원 λ°μ΄ν„°μ—μ„œλ„ RoPE와 λ™μΌν•œ μˆ˜μ€€μ˜ 등변성을 ν™•λ³΄ν•œλ‹€λŠ” μ μ—μ„œ 맀우 일반적인 ν˜•νƒœμ˜ μ†”λ£¨μ…˜μ΄λΌκ³  ν•  수 μžˆλ‹€.

κ·ΈλŸΌμ—λ„ λΆˆκ΅¬ν•˜κ³ , μš°λ¦¬λŠ” β€˜μ—„κ²©ν•œ(equivariant) 등변성’이 μ‹€μ œ RoPE의 μ„±λŠ₯에 μ°¨μ§€ν•˜λŠ” 비쀑이 κ³Όμ—° μ–Όλ§ˆλ‚˜ 큰가에 λŒ€ν•΄ μ˜λ¬Έμ„ μ œκΈ°ν•œλ‹€. κΈ°μ‘΄ 연ꡬ듀은 등변성이 RoPE의 핡심 성곡 μš”μΈμ΄λΌκ³  μ£Όμž₯ν–ˆμ§€λ§Œ, μ‹€μ œ μ‹€ν—˜ ν™˜κ²½μ—μ„œλŠ” 등변성을 μ™„μ „νžˆ λ§Œμ‘±μ‹œν‚€μ§€ λͺ»ν•˜λ”라도 μΆ©λΆ„νžˆ 쒋은 μ„±λŠ₯을 λ³΄μ΄λŠ” κ²½μš°κ°€ μ’…μ’… κ΄€μ°°λ˜μ—ˆλ‹€. μ΄λŸ¬ν•œ 관찰을 λ°”νƒ•μœΌλ‘œ, μš°λ¦¬λŠ” β€˜λΉ„κ΅ν™˜(non‑commutative) μƒμ„±μžβ€™λ₯Ό ν—ˆμš©ν•˜λŠ” μƒˆλ‘œμš΄ 방법인 Spherical RoPEλ₯Ό μ œμ•ˆν•œλ‹€. Spherical RoPEλŠ” Mixed RoPE와 ꡬ쑰적으둜 μœ μ‚¬ν•˜μ§€λ§Œ, 각 μ°¨μ›μ˜ νšŒμ „ μ—°μ‚°μžκ°€ μ„œλ‘œ κ΅ν™˜λ˜μ§€ μ•Šμ•„λ„ λ˜λŠ” μžμœ λ„λ₯Ό μ œκ³΅ν•œλ‹€. 즉, νšŒμ „ μ—°μ‚°μžλ₯Ό ꡬ면 μ’Œν‘œκ³„(spherical coordinates) μƒμ—μ„œ μ •μ˜ν•¨μœΌλ‘œμ¨, λ³΅μ†Œμˆ˜ 평면이 μ•„λ‹Œ 3차원 ꡬ면 κ³΅κ°„μ—μ„œ μœ„μΉ˜ 정보λ₯Ό μΈμ½”λ”©ν•œλ‹€. 이 접근법은 기쑴의 λ“±λ³€μ„± μš”κ΅¬μ‚¬ν•­μ„ μ™„ν™”ν•˜λ©΄μ„œλ„, 고차원 데이터에 λŒ€ν•œ ν‘œν˜„λ ₯을 μœ μ§€ν•˜κ±°λ‚˜ 였히렀 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” κ°€λŠ₯성을 λ‚΄ν¬ν•œλ‹€.

μ‹€ν—˜ 결과에 λ”°λ₯΄λ©΄, Spherical RoPEλŠ” 등변성을 κ°•μ œν•˜λŠ” 기쑴의 Mixed RoPE 및 기타 μƒλŒ€μ  μœ„μΉ˜ 인코딩 방식과 λ™λ“±ν•˜κ±°λ‚˜ 더 λ‚˜μ€ ν•™μŠ΅ 행동(learning behavior) 을 λ³΄μ˜€λ‹€. ꡬ체적으둜, 이미지 λΆ„λ₯˜μ™€ λΉ„λ””μ˜€ 행동 인식과 같은 컴퓨터 λΉ„μ „ κ³Όμ œμ—μ„œ 수렴 속도가 λΉ λ₯΄κ³ , μ΅œμ’… 정확도 λ˜ν•œ κΈ°μ‘΄ 방법과 λΉ„κ΅ν–ˆμ„ λ•Œ ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•œ 차이λ₯Ό 보이지 μ•Šκ±°λ‚˜ μ•½κ°„μ˜ ν–₯상을 κΈ°λ‘ν•˜μ˜€λ‹€. μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” β€œμƒλŒ€μ  μœ„μΉ˜ μž„λ² λ”©μ΄ λ°˜λ“œμ‹œ 등변성을 λ§Œμ‘±ν•΄μ•Όλ§Œ 쒋은 μ„±λŠ₯을 λ‚Ό 수 μžˆλ‹€β€λŠ” 일반적인 믿음이 컴퓨터 λΉ„μ „ λΆ„μ•Όμ—μ„œλŠ” λ°˜λ“œμ‹œ μ„±λ¦½ν•˜μ§€ μ•Šμ„ 수 μžˆμŒμ„ μ‹œμ‚¬ν•œλ‹€. 즉, μƒλŒ€μ (relative) μœ„μΉ˜ 인코딩이 λ°˜λ“œμ‹œ β€˜ν•„μˆ˜β€™ μš”μ†ŒλŠ” μ•„λ‹ˆλ©°, κ²½μš°μ— λ”°λΌμ„œλŠ” μ ˆλŒ€μ (absolute) ν˜Ήμ€ 비등변적(non‑equivariant) 방식이 더 효율적일 μˆ˜λ„ μžˆλ‹€λŠ” 점을 μ‹€μ¦μ μœΌλ‘œ μž…μ¦ν•œ 것이닀.

λ§ˆμ§€λ§‰μœΌλ‘œ, μš°λ¦¬λŠ” 이번 연ꡬ κ²°κ³Όκ°€ 컴퓨터 λΉ„μ „ λΆ„μ•Όμ—μ„œ μœ„μΉ˜ 인코딩(positional encoding) 섀계에 λŒ€ν•œ 기쑴의 μ„ μž…κ²¬μ„ κΉ¨κ³ , 보닀 λΉ λ₯΄κ³  μΌλ°˜ν™” λŠ₯λ ₯이 λ›°μ–΄λ‚œ μƒˆλ‘œμš΄ 인코딩 방법을 νƒμƒ‰ν•˜λŠ” 데 μ€‘μš”ν•œ 발판이 될 것이라고 κΈ°λŒ€ν•œλ‹€. 특히, β€œμœ„μΉ˜ 인코딩은 λ°˜λ“œμ‹œ μƒλŒ€μ μ΄μ–΄μ•Ό ν•œλ‹€β€λŠ” μ „μ œ 없이도 고차원 μ‹œκ° 데이터에 적용 κ°€λŠ₯ν•œ 효율적인 인코딩 기법을 κ°œλ°œν•¨μœΌλ‘œμ¨, ν–₯ν›„ λŒ€κ·œλͺ¨ μ΄λ―Έμ§€Β·λΉ„λ””μ˜€ λͺ¨λΈμ˜ ν•™μŠ΅ λΉ„μš©μ„ 크게 μ ˆκ°ν•˜κ³ , λ‹€μ–‘ν•œ μ‘μš© λΆ„μ•Ό(예: 자율 μ£Όν–‰, 의료 μ˜μƒ 뢄석, λ‘œλ΄‡ λΉ„μ „ λ“±)μ—μ„œ 더 λ‚˜μ€ μΌλ°˜ν™” μ„±λŠ₯을 달성할 수 μžˆμ„ κ²ƒμœΌλ‘œ κΈ°λŒ€ν•œλ‹€. μ•žμœΌλ‘œλ„ μ΄λŸ¬ν•œ 비등변적(Non‑Equivariant) 접근법을 기반으둜 ν•œ 연ꡬ가 ν™œλ°œνžˆ μ§„ν–‰λ˜μ–΄, μœ„μΉ˜ 정보 ν™œμš©μ— λŒ€ν•œ μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•˜κ³ , κΆκ·Ήμ μœΌλ‘œλŠ” 인간 μˆ˜μ€€μ˜ μ‹œκ° 인식 λŠ₯λ ₯을 κ°–μΆ˜ 인곡지λŠ₯ μ‹œμŠ€ν…œ ꡬ좕에 κΈ°μ—¬ν•˜κΈΈ λ°”λž€λ‹€.

View Original PDF on ArXiv