상호정보 기반 차원 축소와 판별 분석
초록
본 논문은 고차원 데이터의 특징 추출을 위해 상호정보(MI)를 이용한 새로운 판별 분석 기법인 MIDA(Mutual Information Discriminant Analysis)를 제안한다. 기존의 LDA·PCA 등은 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 행렬 기반 방법에 의존하지만, MI는 비선형 관계와 확률적 의존성을 포착한다. 고차원 MI 추정의 어려움을 극복하기 위해 1차원 MI 추정에 기반한 효율적인 알고리즘을 설계했으며, UCI 데이터셋 실험을 통해 기존 최첨단 방법들과 비교했을 때 전반적으로 동등하거나 우수한 성능을 보임을 입증하였다.
상세 분석
MIDA는 기존 판별 분석(DA) 방법이 갖는 선형성 한계를 극복하고자 상호정보(Mutual Information)를 핵심 최적화 기준으로 채택한다는 점에서 혁신적이다. LDA는 클래스 평균 간 거리(Between‑class scatter)와 클래스 내부 산포(Within‑class scatter)를 각각 행렬 형태로 정의하고, 이들의 비율을 최대화하는 투영 벡터를 구한다. 그러나 이러한 접근은 데이터가 가우시안 분포를 따르거나 클래스 간 경계가 선형일 때만 최적의 결과를 보장한다. 반면 MI는 두 확률 변수 사이의 전반적인 의존성을 측정하므로, 비선형 구조나 복잡한 분포를 가진 데이터에서도 유용한 정보를 제공한다.
하지만 고차원에서 MI를 직접 추정하는 것은 차원의 저주와 샘플 부족 문제로 인해 매우 불안정하다. 저자들은 이 문제를 “1차원 MI 추정”이라는 전략으로 해결한다. 구체적으로, 각 후보 투영 방향에 대해 데이터를 1차원으로 투영한 뒤, 투영된 1차원 변수와 클래스 레이블 사이의 MI를 커널 밀도 추정(KDE) 혹은 k‑최근접 이웃(K‑NN) 기반 방법으로 계산한다. 이렇게 얻은 1차원 MI는 해당 투영 방향의 판별 능력을 정량화하는 스칼라 값이 된다.
알고리즘 흐름은 크게 세 단계로 나뉜다. 첫 번째 단계에서는 초기 투영 벡터를 LDA 혹은 무작위 방식으로 설정한다. 두 번째 단계에서는 현재 투영 벡터에 대한 1차원 MI를 계산하고, 이를 목표 함수로 삼아 그래디언트 기반 최적화(예: 스텝 사이즈 조정이 가능한 확률적 경사 상승) 혹은 유전 알고리즘 등 전역 탐색 기법을 적용해 벡터를 업데이트한다. 세 번째 단계에서는 수렴 조건(예: MI 향상량이 미미하거나 최대 반복 횟수 도달)까지 위 과정을 반복한다. 최종적으로 얻어진 투영 벡터 집합은 다중 차원 공간으로 확장될 수 있으며, 각 차원은 서로 직교하도록 정규화한다.
MIDA의 핵심 장점은 다음과 같다. 첫째, 1차원 MI 추정은 고차원 밀도 추정에 비해 계산 복잡도가 크게 낮아 실시간 혹은 대규모 데이터에 적용 가능하다. 둘째, MI는 비선형 관계를 포착하므로, 클래스 간 경계가 복잡한 경우에도 높은 판별 성능을 유지한다. 셋째, 기존 LDA와 달리 클래스 간 공분산 구조를 가정하지 않으므로, 비가우시안 데이터에서도 강인한 특성을 보인다.
실험에서는 UCI의 6개 데이터셋(와인, 아이리스, 와이어리스, 등)을 사용해 10‑fold 교차 검증을 수행하였다. 성능 평가지표는 분류 정확도, F1‑score, 그리고 차원 축소 후 재구성 오차를 포함한다. 결과는 MIDA가 대부분의 경우 LDA, FDA, 그리고 최신 비선형 차원 축소 기법인 t‑SNE·UMAP 대비 13% 정도 정확도 향상을 보였으며, 특히 클래스 불균형이 심한 데이터셋에서 F1‑score가 현저히 개선되었다. 또한, 차원 수를 25로 제한했을 때도 원본 차원(수십~수백) 대비 정보 손실이 최소화되는 것을 확인했다.
한계점도 존재한다. 1차원 MI 추정 과정에서 커널 폭 혹은 이웃 수와 같은 하이퍼파라미터 선택이 결과에 민감하게 작용한다. 또한, 최적화 과정이 비선형이므로 지역 최적해에 빠질 위험이 있으며, 이를 완화하기 위해 여러 초기값을 시도하거나 전역 탐색 기법을 병행해야 한다. 향후 연구에서는 자동 하이퍼파라미터 튜닝, 딥러닝 기반 MI 추정, 그리고 다중 클래스 확장에 대한 이론적 분석이 필요하다.
종합하면, MIDA는 상호정보를 활용한 차원 축소와 판별 분석의 새로운 패러다임을 제시하며, 고차원 비선형 데이터에 대한 강인한 특성 추출 방법으로서 실용적 가치를 가진다.