초점 없는 세계 모델: 구면 커널 연산자로 구현하는 진정한 적응형 예측

본 논문은 세계 모델링을 위한 기존의 잠재공간 기반 접근법이 근본적인 수학적 결함을 가지고 있음을 지적한다. 고차원 관측을 파라미터화된 잠재공간 Z에 매핑한 뒤 전이 연산자를 학습하는 방식은, 실제 매니폴드 학습 문제를 잠재공간으로 옮겨 놓는 것에 불과하다. 데이터 분포가 변하면 잠재 매니폴드 자체가 변하고, 양의 커널(예: 스케일드 닷‑프로덕트 어텐션) 기반 추정기는 Nadaraya‑Watson 형태로 포화 현상을 겪는다. 포화 현상은 커널 밴드폭 h에 대해 근사 오차가 O(h²) 이하로 제한되며, 이는 함수의 매끄러움과 무관하게 수렴 속도를 억제한다. 또한, 양의 커널은 관측 빈도에 비례하는 밀도 추정기를 내포해 드문 이벤트를 과소평가한다는 편향을 가진다. 이를 해결하기 위해 저자는 초구면 S^{q} 위에 데이터를 사영하고, 초구면 다항식(ultraspherical, Gegenbauer) R_k(x)를 이용한 국소화된 커널 Φ_{n,q}(x)를 정의한다. Φ는 가중치 w_k와 연속적인 게이팅 함수 γ_k(n)=max(0, min(1, n−k+1))의 선형 결합으로 구성돼, 양의 제약을 없애고 국소성을 확보한다. 이러한 비양성 커널은 포화 현상을 회피하고, 근사 오차가 내재 차원 q와 함수의 국소 매끄러움에만 의존한다는 정리를 제시한다. 즉, 고차원(ambient) D에 대한 차원 저주를 피하면서도 데이터가 정의하는 매니폴드 위에서 직접적인 함수 재구성이 가능해진다. 알고리즘적으로는 입력 Q, K, V를 각 헤드별로 L2 정규화해 구면 위에 사영하고, 유사도 행렬 S=Q̃K̃ᵀ를 구한다. 이후 재귀식 R_k = c₁·S·R_{k−1} − c₂·R_{k−2} (c₁, c₂는 λ=(q−1)/2에 의존)로 다항식 행렬을 순차적으로 생성한다. 각 단계마다 γ_k와 w_k를 곱해 Φ를 누적하고, 인과 마스크를 적용해 ˜f_n(q)= (Φ ⊙ V)/M 형태의 출력으로 만든다. 시간 복잡도는 O(N²D + n_max N²)이며, n_max≪D인 실용적인 설정에서는 기존 어텐션과 동일한 O(N²D)를 유지한다. 메모리 복잡도는 추론 시 O(N² + ND), 학습 시 역전파를 위해 모든 R_k를 저장해야 하므로 O(n_max N² + ND)이다. 실험에서는 FineWeb-edu 데이터의 10B 토큰 샘플을 사용해 GPT‑2 스타일 트랜스포머(4 레이어, 4 헤드, D=256)를 학습하였다. SKO는 q=64, 각 헤드별 n을

초점 없는 세계 모델: 구면 커널 연산자로 구현하는 진정한 적응형 예측

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기