다항식 기반 비선형 매핑으로 구현한 명시적 차원 축소
초록
본 논문은 고차원 데이터와 저차원 임베딩 사이에 다항식 관계가 존재한다는 가정 하에, 명시적인 비선형 매핑을 제안한다. 이를 LLE에 적용해 Neighborhood Preserving Polynomial Embedding(NPPE) 알고리즘을 개발했으며, 기존 선형 투영 방식 및 커널 기반 방법보다 지역 이웃 구조와 비선형 기하를 더 정확히 보존한다는 실험적 증거를 제시한다.
상세 분석
본 연구는 기존 차원 축소 기법이 “명시적 매핑 부재”라는 근본적인 한계를 극복하고자 한다. 기존 방법들은 (1) 선형 투영을 가정해 Uᵀx 형태의 명시적 변환을 도출하거나, (2) 커널 함수를 이용해 암묵적인 비선형 매핑을 구성하지만, 전자는 비선형 구조를 충분히 표현하지 못하고 후자는 커널 선택에 민감하며 계산량이 급증한다는 문제점이 있다. 논문은 이러한 문제를 해결하기 위해 “다항식 매핑”이라는 새로운 가정을 도입한다. 구체적으로, 저차원 좌표 yₖ는 입력 벡터 x의 모든 차원에 대해 차수 p 이하의 다항식으로 표현된다(식 12). 이때 다항식 계수 벡터 vₖ는 학습 데이터 {xᵢ, yᵢ}를 이용해 최소제곱법으로 추정한다. 다항식 형태는 선형 투영을 포함하는 일반화된 모델이므로, 비선형 구조를 고차항까지 확장해 표현할 수 있다.
다항식 매핑을 LLE에 적용한 NPPE는 다음 절차로 구성된다. 첫 단계에서 기존 LLE와 동일하게 각 샘플의 k-최근접 이웃을 찾고, 재구성 가중치 Wᵢⱼ를 구한다. 두 번째 단계에서는 다항식 기반 변환 행렬 Φ를 구성하는데, Φ는 입력 데이터의 모든 단항·다항 조합을 열벡터로 갖는 디자인 행렬이다. 이후, 최소제곱 목표 ‖Y - ΦV‖²와 LLE의 보존 제약을 동시에 만족하도록 V를 구한다(일반화된 고유값 문제로 변환). 최종적으로 얻어진 V는 명시적인 매핑 함수 f(x)=Φ(x)V를 정의하며, 새로운 샘플이 들어올 때마다 즉시 저차원 좌표를 계산할 수 있다.
계산 복잡도 측면에서, Φ의 차원은 (n+p choose p) 로 급격히 증가하지만, 논문은 p를 2~3 정도로 제한하고, 차원 축소 전 PCA 전처리를 통해 n을 감소시켜 실용적인 실행 시간을 확보한다. 또한, 선형 투영 기반 방법과 동일한 O(Nm²) 수준의 복잡도를 유지한다는 점을 실험적으로 확인한다.
실험에서는 S-곡선, 스위스롤 등 인공 데이터와 얼굴 이미지, 하이퍼스펙트럼 데이터 등 실제 데이터에 NPPE를 적용하였다. 결과는 (1) 근접 이웃 보존률이 기존 LLE, LPP, NPE 등에 비해 5~10% 향상, (2) 저차원 시각화에서 비선형 구조가 더 명확히 드러남, (3) 분류 정확도 향상(특히 k-NN 분류) 등을 보여준다. 특히, 커널 기반 방법과 비교했을 때 매핑 계산이 명시적이므로 실시간 응용에 유리하고, 커널 선택에 따른 성능 변동이 없다는 장점이 강조된다.
한계점으로는 다항식 차수가 커질 경우 과적합 위험과 메모리 사용량 증가가 있으며, 고차원 데이터에 직접 적용하기엔 설계 행렬 Φ의 차원이 급증한다는 점이다. 이를 해결하기 위해 차원 축소 전 선형 PCA 혹은 랜덤 프로젝션을 선행하는 것이 권장된다. 전반적으로, 다항식 기반 명시적 매핑은 기존 선형·커널 방법의 장점을 보완하면서도 구현이 간단하고, 다양한 실시간 응용에 적용 가능함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기