초점 없는 세계 모델: 구면 커널 연산자로 구현하는 진정한 적응형 예측

이 논문은 기존의 잠재공간 기반 세계 모델이 갖는 수학적 한계를 지적하고, 스케일드 닷‑프로덕트 어텐션을 양의 커널 추정기로 보는 관점을 비판한다. 저자는 초구면에 데이터를 사영하고, 초구면 다항식(초구면 폴리노미얼)인 울트라스페리컬(게헨하르) 다항식을 이용한 국소화된 커널 Φₙ,₍q₎를 정의한다. 이를 통해 양의 커널이 초래하는 포화 현상을 회피하고, 근사 오차를 데이터의 내재 차원 q에만 의존하도록 만든다. 제안된 Spherical Kern…

저자: Vladimer Khasia

초점 없는 세계 모델: 구면 커널 연산자로 구현하는 진정한 적응형 예측
본 논문은 세계 모델링을 위한 기존의 잠재공간 기반 접근법이 근본적인 수학적 결함을 가지고 있음을 지적한다. 고차원 관측을 파라미터화된 잠재공간 Z에 매핑한 뒤 전이 연산자를 학습하는 방식은, 실제 매니폴드 학습 문제를 잠재공간으로 옮겨 놓는 것에 불과하다. 데이터 분포가 변하면 잠재 매니폴드 자체가 변하고, 양의 커널(예: 스케일드 닷‑프로덕트 어텐션) 기반 추정기는 Nadaraya‑Watson 형태로 포화 현상을 겪는다. 포화 현상은 커널 밴드폭 h에 대해 근사 오차가 O(h²) 이하로 제한되며, 이는 함수의 매끄러움과 무관하게 수렴 속도를 억제한다. 또한, 양의 커널은 관측 빈도에 비례하는 밀도 추정기를 내포해 드문 이벤트를 과소평가한다는 편향을 가진다. 이를 해결하기 위해 저자는 초구면 S^{q} 위에 데이터를 사영하고, 초구면 다항식(ultraspherical, Gegenbauer) R_k(x)를 이용한 국소화된 커널 Φ_{n,q}(x)를 정의한다. Φ는 가중치 w_k와 연속적인 게이팅 함수 γ_k(n)=max(0, min(1, n−k+1))의 선형 결합으로 구성돼, 양의 제약을 없애고 국소성을 확보한다. 이러한 비양성 커널은 포화 현상을 회피하고, 근사 오차가 내재 차원 q와 함수의 국소 매끄러움에만 의존한다는 정리를 제시한다. 즉, 고차원(ambient) D에 대한 차원 저주를 피하면서도 데이터가 정의하는 매니폴드 위에서 직접적인 함수 재구성이 가능해진다. 알고리즘적으로는 입력 Q, K, V를 각 헤드별로 L2 정규화해 구면 위에 사영하고, 유사도 행렬 S=Q̃K̃ᵀ를 구한다. 이후 재귀식 R_k = c₁·S·R_{k−1} − c₂·R_{k−2} (c₁, c₂는 λ=(q−1)/2에 의존)로 다항식 행렬을 순차적으로 생성한다. 각 단계마다 γ_k와 w_k를 곱해 Φ를 누적하고, 인과 마스크를 적용해 ˜f_n(q)= (Φ ⊙ V)/M 형태의 출력으로 만든다. 시간 복잡도는 O(N²D + n_max N²)이며, n_max≪D인 실용적인 설정에서는 기존 어텐션과 동일한 O(N²D)를 유지한다. 메모리 복잡도는 추론 시 O(N² + ND), 학습 시 역전파를 위해 모든 R_k를 저장해야 하므로 O(n_max N² + ND)이다. 실험에서는 FineWeb-edu 데이터의 10B 토큰 샘플을 사용해 GPT‑2 스타일 트랜스포머(4 레이어, 4 헤드, D=256)를 학습하였다. SKO는 q=64, 각 헤드별 n을

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기