FEKAN: 기능‑강화 콜모고로프‑아놀드 네트워크로 보는 차세대 과학 AI
📝 Abstract
Kolmogorov-Arnold Networks (KANs) have recently emerged as a compelling alternative to multilayer perceptrons, offering enhanced interpretability via functional decomposition. However, existing KAN architectures, including spline-, wavelet-, radial-basis variants, etc., suffer from high computational cost and slow convergence, limiting scalability and practical applicability. Here, we introduce Feature-Enriched Kolmogorov-Arnold Networks (FEKAN), a simple yet effective extension that preserves all the advantages of KAN while improving computational efficiency and predictive accuracy through feature enrichment, without increasing the number of trainable parameters. By incorporating these additional features, FEKAN accelerates convergence, increases representation capacity, and substantially mitigates the computational overhead characteristic of state-of-the-art KAN architectures. We investigate FEKAN across a comprehensive set of benchmarks, including function-approximation tasks, physics-informed formulations for diverse partial differential equations (PDEs), and neural operator settings that map between input and output function spaces. For function approximation, we systematically compare FEKAN against a broad family of KAN variants, FastKAN, WavKAN, ReLUKAN, HRKAN, ChebyshevKAN, RBFKAN, and the original SplineKAN. Across all tasks, FEKAN demonstrates substantially faster convergence and consistently higher approximation accuracy than the underlying baseline architectures. We also establish the theoretical foundations for FEKAN, showing its superior representation capacity compared to KAN, which contributes to improved accuracy and efficiency.
💡 Analysis
**
1. 연구 배경 및 동기
- KAN의 장점: 함수 분해 기반으로 가시성이 뛰어나고 파라미터 효율성이 높아 과학·공학 분야에 적합.
- 현존 문제: 고차원 비선형 함수 학습 시 연산량이 MLP보다 크게 증가하고, 수렴이 느려 대규모 적용이 어려움.
- 특징 강화(feature enrichment): 전통 머신러닝에서 차원 확장은 비선형 관계를 선형 모델로 근사하는 핵심 기법이며, 최근 Fourier‑Feature, Sinusoidal Positional Encoding 등으로 MLP의 스펙트럴 바이어스를 완화하는 사례가 많다.
2. FEKAN 설계 핵심
| 요소 | 기존 KAN | FEKAN (추가) |
|---|---|---|
| 입력 변환 | 원본 (x) 그대로 | ( \gamma(x) = |
📄 Content
특징 공간 확장은 오래전부터 머신러닝의 핵심 주제 중 하나였으며, 회귀와 분류 작업 모두에 널리 적용됩니다. 가장 단순한 형태에서는 선형 회귀가 응답 변수를 입력 벡터 x ∈ ℝⁿ의 선형 함수로 모델링합니다. 많은 상황에서 효과적이지만, 변수들 사이의 근본적인 관계가 비선형일 경우 이 형태는 충분하지 않게 됩니다. 이러한 경우 선형 모델은 데이터에 존재하는 고차 상호작용 및 복잡한 의존성을 포착하지 못합니다. 원칙적이면서도 실용적인 해결책은 γ : ℝⁿ → ℝⁿ⁺ᵐ 와 같은 특징 맵을 도입해 원래 입력 공간을 고차원 표현으로 끌어올리는 것입니다. 이 변환은 비선형 혹은 고차 항들을 특징 집합에 추가함으로써, 선형 모델링 프레임워크 내에서 독립적인 예측 변수로 취급할 수 있게 합니다. 변환된 공간에서 작동함으로써 선형 회귀는 기본 구조를 바꾸지 않고도 비선형 관계를 효과적으로 근사할 수 있습니다.
분류 문제에도 동일한 논리가 적용됩니다. 적절한 특징 확장을 통해 원래 공간에서 선형적으로 구분되지 않던 데이터가 변환된 공간에서는 선형 결정 경계에 의해 구분될 수 있습니다. 이런 의미에서 특징 인코딩은 기저 변환(basis change) 으로 볼 수 있으며, 데이터가 근본 문제의 구조를 보다 충실히 포착하는 표현으로 사상됩니다. 흔히 사용되는 기저 확장에는 다항 함수, 푸리에 급수, 방사형 기저 함수(RBF) 가 포함됩니다. 기저 선택은 보통 데이터 생성 과정에 대한 사전 지식에 의해 안내됩니다. 예를 들어 데이터가 주기적 구조를 보이면 푸리에 기저가 자연스럽고 효율적인 표현을 제공하고, 국소화된 구조를 가진 문제는 방사형 기저 확장으로부터 이득을 얻을 수 있습니다.
최근 동향: MLP와 특징 확장
최근 몇 년간 다층 퍼셉트론(MLP) 의 사용이 크게 부활했으며, 이는 주로 하드웨어 가속기의 발전 덕분에 역전파를 통한 대규모 학습이 효율적으로 가능해졌기 때문입니다. MLP는 표현력이 뛰어나지만 스펙트럼 바이어스(spectral bias) 라는 고유한 한계를 가지고 있습니다. 즉, 저주파 성분은 잘 학습하지만 고주파 구조를 표현하는 데 어려움을 겪습니다. 이는 미세한 디테일이 중요한 작업에서는 치명적일 수 있습니다.
이 문제를 완화하기 위한 효과적인 전략으로 특징 확장이 떠오르고 있습니다. Tancik 등[1]은 푸리에 특징 매핑(Fourier feature mappings) 을 도입해 저차원 좌표 기반 MLP가 고주파 함수를 학습하도록 했습니다. 이미지 회귀·재구성 실험을 통해 입력에 푸리에 특징을 추가하면 고주파 내용을 포착하는 능력이 크게 향상되며, 네트워크 구조 자체를 바꿀 필요가 없음을 보였습니다.
이를 기반으로 Sun 등[2]은 사인형 위치 인코딩(Sinusoidal Positional Encoding, SPE) 을 제안했습니다. SPE에서는 주파수를 사전에 고정된 하이퍼파라미터가 아니라 학습 과정에서 적응적으로 학습하도록 하여 유연성을 높이고 수동 튜닝을 감소시켰습니다. 저자들은 SPE가 음성 합성·이미지 재구성 등 다양한 응용 분야에서 고주파 신호를 효과적으로 모델링한다는 것을 실증했습니다.
Kolmogorov‑Arnold Network (KAN)와 특징 확장
Kolmogorov‑Arnold Network (KAN)[3] 은 기존 선형 가중치를 학습 가능한 일변 함수 로 교체한 최신 신경망 구조입니다. 이는 Kolmogorov‑Arnold 표현 정리를 기반으로 하며, 고정된 선형 변환 대신 구조화된 함수 분해를 통해 비선형 관계를 모델링하려는 시도입니다. KAN 프레임워크 내에서 특징 확장은 모델을 구성하는 기저 함수 를 보완하는 유용한 수단이 될 수 있습니다. 입력을 보다 표현력 있는 특징 공간으로 변환하면 KAN의 함수 구성 요소가 복잡한 구조를 직접 모델링해야 하는 부담이 줄어들어 수렴 속도 가 빨라지고 학습 시간 이 감소할 수 있습니다. 또한, 이러한 확장은 파라미터 효율성 을 높여, 변환 전보다 가벼운 모델이라도 원래 공간에서 큰 모델과 동등한 성능을 달성하도록 돕습니다.
KAN은 해석 가능성·파라미터 효율성 등 매력적인 특성을 지니지만, 학습 비용 이 기존 MLP보다 현저히 높아 대규모 적용에 제약이 있습니다. 현재까지 특징 확장 전략이 KAN 기반 구조와 체계적으로 결합된 사례는 보고되지 않았습니다. 우리는 이러한 변환을 통합하면 과학·공학 응용 에서 계산 효율성을 크게 개선하면서도 추가적인 구조적 복잡성을 도입하지 않을 수 있다고 가정합니다.
KAN의 확장과 FEKAN 제안
전통적인 MLP와 비교했을 때 KAN은 해석 가능성 과 강력한 파라미터 효율성 을 제공하므로 과학·공학 분야에 특히 매력적입니다. 이러한 장점을 바탕으로 KAN은 표 형식 데이터뿐 아니라 그래프[4,5], 이미지[6], 스펙트럼 데이터[7], 시계열[8] 등 다양한 데이터 형태로 빠르게 확장되고 있습니다.
수학 과학 분야에서는 물리 기반 제약 을 손실 함수에 직접 포함시켜 편미분 방정식(PDE) 을 풀도록 하는 Physics‑informed KAN (PI‑KAN)[9‑12] 이 제안되었으며, SPI‑KAN[13] 은 3차원까지의 PDE를 효율적으로 해결하기 위해 분리 가능한 아키텍처 를 도입했습니다. 해석 가능성 덕분에 KAN은 고차원 PDE[14] 에도 적용되고, 연산자 학습(operator learning) 에서는 고주파 동적 시스템의 스펙트럼 바이어스를 완화하기 위해 지속 학습(continual learning) 전략과 결합되었습니다. 그럼에도 불구하고 KAN은 여전히 학습 시간 이 표준 MLP보다 크게 오래 걸리는 단점이 있습니다.
본 연구에서는 이러한 계산적 한계를 극복하면서 원래 KAN의 장점을 유지하는 Feature‑Enriched Kolmogorov‑Arnold Networks (FEKAN) 를 제안합니다. FEKAN은 기존 KAN에 특징 확장 을 간단히 추가한 형태로, 구조적 복잡성을 크게 늘리지 않으면서도 계산 효율성 과 예측 성능 을 동시에 향상시킵니다. 아래 그림 1은 FEKAN과 기존 KAN의 구조적 차이를 도식화한 것입니다.
주요 기여
- FEKAN 설계 – 기본 KAN 아키텍처에 효율적인 특징 확장을 도입해 계산 효율성과 예측 정확도를 동시에 개선하면서, 해석 가능성·파라미터 효율성이라는 핵심 속성을 보존했습니다.
- 이론적 프레임워크 – 슈퍼포지션 정리(superposition theorem) 를 FEKAN에 확장한 이론을 정립하고, 특징 확장이 표현 능력 향상에 기여하는 메커니즘을 엄밀히 분석했습니다.
- 다양한 벤치마크 – 비선형 회귀, 다양한 종류의 PDE(혼돈 ODE, 정상·시간 의존 PDE 등) 해결, 고주파 영역의 신경 연산자 학습 등 점진적으로 복잡해지는 과제 에 FEKAN을 적용해 전반적인 견고성을 평가했습니다. 회귀 테스트는 고주파 성분·불연속성을 포함한 함수들을, 미분 방정식 테스트는 2·3 차원 시공간 도메인에서의 다양한 동역학을 포함했습니다.
- 광범위한 비교 – 원본 KAN, FastKAN[16], Chebyshev KAN[17], WaveKAN[18], ReLU KAN[19], HRKAN[20] 등 최신 KAN 변형들과 포괄적인 비교 를 수행해 FEKAN이 특정 아키텍처에 국한되지 않고 전반적인 안정성과 견고성을 향상시킴을 입증했습니다.
- 지속 학습 평가 – 대표적인 경계값 문제에서 재앙적 망각(catastrophic forgetting) 을 실험적으로 조사했으며, FEKAN이 원본 KAN보다 지속 학습 성능이 우수함을 확인했습니다.
과학 기반 모델(SciFMs)과의 연계
KAN이 MLP 대비 갖는 장점 때문에 과학 응용의 기초 블록 으로 자리매김하려면, 스케일러빌리티 를 확보하는 것이 필수적입니다. 이는 궁극적으로 과학 기반 모델(SciFMs)[21] 의 핵심 구성 요소가 될 잠재력을 의미합니다. 최근 일부 연구에서는 MLP‑KAN 하이브리드 를 시도했지만, 이러한 대규모 구조 변경은 해석 가능성·파라미터 효율성을 손상시키는 경우가 많았습니다. 반면 FEKAN은 구조적 일관성 을 유지하면서도 계산 병목을 해소하는 통합 솔루션 을 제공합니다. 본 논문의 이후 섹션에서는 이론적 분석과 실험 결과를 통해 그 효용성을 상세히 제시합니다.
1. 배경: 특징 확장의 고전적 활용
특징 공간 확장은 비선형 회귀 와 지원 벡터 머신(SVM) 등 고전 머신러닝에서 널리 사용되었습니다. Rahimi와 Recht[22]는 무작위 푸리에 특징(Random Fourier Features) 을 제안해 커널 함수를 저차원 유클리드 내적 공간으로 명시적으로 투사함으로써, 비선형 커널 방법 대신 효율적인 선형 학습 알고리즘을 사용할 수 있게 했습니다.
최근에는 이러한 특징 매핑이 딥러닝 에도 통합되고 있습니다. Xu 등[23]은 Chebyshev 특징 맵 과 다단계 학습[24]을 결합해 매끄럽고 비매끄러운 목표 함수 모두에 대해 기계 수준의 정밀도를 달성했습니다. 무작위 푸리에 특징[1]·적응형 사인형 인코딩[2] 은 컴퓨터 그래픽스·이미지 재구성에서 스펙트럼 바이어스를 완화하는 데 활용되었습니다. 또한 푸리에 특징 인코딩은 물리‑인포드 신경망(PINN) 에서 주기적 경계 조건 을 정확히 구현하는 데도 쓰였지만[25], 본 연구에서는 경계·초기 조건을 데이터 샘플링으로 강제함으로써 KAN 프레임워크 내에서 특징 확장의 순수 효과만을 평가합니다.
많은 예측 모델링 작업에서 입력과 출력 사이의 관계는 본질적으로 비선형입니다. 입력 *x = (x₁,…,xₙ) ∈ ℝⁿ
이 글은 AI가 자동 번역 및 요약한 내용입니다.