비전 KAN: 주목 없이도 강력한 비전 백본을 구현하는 콜모고로프 아놀드 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 주목(attention) 메커니즘을 대체할 수 있는 함수 기반 토큰 믹서인 MultiPatch‑RBFKAN을 제안한다. Kolmogorov‑Arnold 정리를 기반으로 한 KAN을 패치 단위로 적용하고, 축별 분리 혼합과 저‑랭크 전역 매핑을 결합해 선형 복잡도로 지역·전역 상호작용을 구현한다. ImageNet‑1K 실험에서 ViK‑Small(76.5 %)·ViK‑Base(80.3 %)의 정확도를 달성하며, 기존 트랜스포머 대비 FLOPs와 파라미터를 크게 절감한다.

상세 분석

ViK는 “Attention‑free”라는 키워드 아래, 기존 자기‑주의가 갖는 O(N²) 메모리·연산 비용과 해석성 부족 문제를 근본적으로 회피한다. 핵심 아이디어는 Kolmogorov‑Arnold 표현정리(K‑A 정리)를 실용적인 네트워크 설계에 옮기는 것으로, 다변량 함수를 일변량 함수들의 합성으로 분해한다는 이론적 근거를 토대로 KAN(Kolmogorov‑Arnold Networks)을 도입한다.

Patch‑wise RBF‑KAN: 입력 피처맵을 p×p 비중첩 패치로 나눈 뒤, 각 패치를 M개의 Radial Basis Function(RBF) 기반 일변량 함수 ϕ(x)=∑_{j=1}^{M} w_j·exp(−‖x−μ_j‖²/2σ_j²) 로 변환한다. RBF는 B‑spline 대비 병렬 계산이 용이하고 GPU 친화적이며, 각 기반 함수가 시각적으로 해석 가능해 로컬 비선형성을 직관적으로 파악할 수 있다.
Axis‑wise Separable Mixing: 패치 내부 비선형 변환만으로는 전역 종속성을 포착하기 부족하므로, 수평·수직 두 개의 depthwise convolution을 적용한다. 이후 Global Average Pooling과 작은 MLP를 통해 가중치 α_h, α_w를 Softmax로 정규화하고, ŷ = α_h·DW_h(y) + α_w·DW_w(y) 로 결합한다. 이는 이미지 구조(가로·세로 경계 등)에 따라 방향성을 동적으로 조절하는 메커니즘이며, 연산 복잡도는 O(N·C·k) 로 선형이다.
Low‑rank Global Mapping: 전역 상호작용을 위해 토큰 차원을 r(≪N) 차원으로 압축하는 P∈ℝ^{r×N}와 복원하는 Q∈ℝ^{N×r}를 학습한다. y_global = Q·P·y 로 구현되며, 복잡도 O(N·C·r) 로 선형을 유지한다. 이 저‑랭크 구조는 기존 자기‑주의의 전역 어텐션 매트릭스를 근사하면서도 메모리 사용량을 크게 감소시킨다.

복합 복잡도: 전체 블록당 O(N·C·(M·p² + k + r)) 로, N이 이미지 해상도(예: 224×224)일 때 선형 스케일을 보장한다. 실험에서는 M=8, p=4, r≈64 정도가 효율과 정확도 사이의 최적점으로 제시된다.

성능 평가: ImageNet‑1K에서 ViK‑Small(13.5 M 파라미터, 1.6 GFLOPs) 은 76.5 % Top‑1 정확도를 기록, ViK‑Base(24.9 M, 3.2 GFLOPs)는 80.3 %를 달성한다. 이는 ViT‑Ti(72.7 %), DeiT‑Tiny(72.2 %) 등 경량 트랜스포머보다 현저히 높은 정확도이며, ResMLP‑S12(76.6 %)와 비슷한 수준을 유지하면서 FLOPs는 절반 수준이다.

소실 실험: Basis 수를 4→10까지 늘리면 정확도가 74.8 %→76.4 %로 상승하지만 10에서는 약간 감소해 과적합 가능성을 시사한다. B‑spline, Wavelet 기반 함수는 RBF 대비 2~3 % 낮은 성능을 보였으며, MLP 대체 시 4.4 % 급감한다. 또한 축별 혼합과 저‑랭크 전역 매핑을 각각 제거하면 정확도가 74.6 %·73.9 %로 크게 떨어진다. 이는 세 구성 요소가 상호 보완적으로 작동함을 증명한다.

해석 가능성: 학습된 RBF 함수 ϕ(x)의 곡선을 시각화한 결과, 얕은 단계에서는 고주파 진동형태가 나타나 로컬 텍스처를 민감하게 포착하고, 깊은 단계에서는 부드러운 곡선으로 수렴해 고수준 의미 정보를 추출한다는 점에서 KAN의 해석 가능성이 실질적인 비전 모델에 적용 가능함을 보여준다.

한계와 향후 과제: 현재 구현은 패치 단위 고정(p=4)과 저‑랭크 r가 고정돼 있어, 매우 고해상도(예: 384×384)에서는 r 선택이 성능에 큰 영향을 미칠 수 있다. 또한 RBF 기반 KAN은 학습 초기에 μ와 σ 초기화가 민감해 최적화 안정성을 위한 스케줄링이 필요하다. 향후 연구에서는 동적 패치 크기, 어댑티브 랭크 선택, 그리고 비전 외에 비디오·멀티모달 분야로의 확장이 기대된다.

비전 KAN: 주목 없이도 강력한 비전 백본을 구현하는 콜모고로프 아놀드 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기