메타클러스터로 KAN 압축 혁신
초록
메타클러스터는 경량 메타러너를 이용해 KAN의 고차원 계수 벡터를 저차원 매니폴드에 정렬시킨 뒤 K‑means 클러스터링으로 공유 중심값을 만든다. 메타러너와 임베딩을 제거하고 코드북만 남긴 뒤 짧은 미세조정으로 정확도 손실을 복구한다. MNIST·CIFAR‑10·CIFAR‑100 및 고차원 방정식 모델에서 최대 80배·124배의 파라미터 압축을 달성하면서 정확도는 유지한다.
상세 분석
본 논문은 Kolmogorov‑Arnold Network(KAN)의 근본적인 구조적 한계, 즉 각 엣지가 스칼라가 아닌 |w| 차원의 계수 벡터를 갖는 점을 압축 관점에서 재조명한다. 기존의 가중치 공유(weight‑sharing) 기법은 스칼라 가중치를 클러스터링해 코드북과 인덱스를 저장함으로써 메모리 절감 효과를 얻지만, KAN에 그대로 적용하면 차원이 급증한 벡터 공간에서 거리의 집중 현상(curse of dimensionality) 때문에 군집 형성이 매우 어려워진다. 이를 해결하기 위해 저자들은 두 단계의 핵심 아이디어를 제시한다. 첫 번째는 메타러너 Mθ를 도입해 저차원 임베딩 z_i∈ℝ^{d_emb}를 |w| 차원의 계수 벡터 w_i로 매핑하도록 학습시키는 것이다. 이 매핑은 단순한 2‑layer MLP(선형‑ReLU‑선형) 형태이며, 학습 과정에서 KAN의 전체 손실과 동시에 최적화된다. 결과적으로 모든 w_i는 동일한 저차원 매니폴드 위에 놓이게 되며, 이는 고차원 공간에서의 군집 가능성을 크게 높인다. 논문에서는 d_emb=1,2인 경우와 메타러너 없이 학습한 경우를 t‑SNE 시각화로 비교해, 메타러너가 없는 경우는 무질서한 구름 형태를 보이지만, d_emb=1 혹은 2일 때는 각각 1‑차원 선형 혹은 2‑차원 평면에 정렬되는 것을 확인한다. 두 번째 아이디어는 이렇게 형성된 매니폴드 위에서 K‑means 클러스터링을 수행하고, 각 엣지를 해당 중심점(c_i)으로 대체하는 것이다. 중심점은 |w| 차원의 벡터이므로 하나의 코드북 엔트리가 여러 스칼라를 동시에 저장한다. 따라서 인덱스 비용은 n·log₂k 비트에 불과하고, 전체 저장량은 n·|w|·b / (n·log₂k/|w| + k·b) 로 표현된다. 여기서 |w|가 분모에 곱해지는 효과는 KAN이 MLP보다 압축 효율이 훨씬 높아짐을 수학적으로 설명한다. 클러스터링 후 메타러너와 임베딩을 완전히 제거하고, 남은 코드북만을 짧은 에폭(β≪α) 동안 미세조정함으로써 정확도 손실을 회복한다. 실험에서는 완전연결형 KAN과 ConvKAN 두 모델군을 B‑spline, RBF, Gram 다항식 등 세 종류의 기반 함수와 결합해 24가지 변형을 평가했다. 이미지 분류에서는 CIFAR‑10 기준으로 16개의 클러스터(완전연결)와 256개의 클러스터(Conv)로 압축했을 때, MetaCluster‑KAN은 79.9배(≈3 MB→38 KB)의 파라미터 감소에도 불구하고 원본 KAN과 동일한 96.06% 정확도를 기록했다. MNIST과 CIFAR‑100에서도 압축 비율 10‑70배 수준에서 정확도 저하가 거의 없었다. 고차원 방정식 모델(예: 다변량 PDE)에서는 |w|가 124배까지 감소했으며, 수치적 정확도와 물리적 보존 특성도 유지되었다. 추가적인 ablation 실험에서는 임베딩 차원(d_emb), 클러스터 수(k), 그리고 계수 벡터 차원(|w|)이 압축 효율과 정확도에 미치는 영향을 정량화했으며, 매니폴드 차원을 낮출수록 클러스터링 품질이 향상되는 것을 확인했다. 계산 비용 측면에서는 메타러너 학습 단계가 전체 트레이닝 시간의 약 5‑10%를 차지하고, 클러스터링 및 미세조정 단계는 상대적으로 가벼워 실제 배포 시 큰 오버헤드가 없다는 점을 강조한다. 종합적으로, 메타클러스터는 KAN의 구조적 장점을 유지하면서 메모리 사용량을 획기적으로 줄이는 실용적인 압축 프레임워크로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기