다차원 데이터의 핵심 구조를 잡아내는 주축 그래프와 매니폴드
초록
본 장에서는 데이터 집합을 저차원 혹은 저복잡도 객체로 근사하는 방법을 통일된 평균제곱거리(MSE) 프레임워크 안에서 제시한다. 기존의 주성분 분석(PCA)과 k‑means 클러스터링을 일반화하여, 그래프와 매니폴드 형태의 ‘주축 객체’를 구성하고, 이를 기대‑최대화(EM) 알고리즘과 그래프 문법을 이용해 복잡도를 제어하면서 학습하는 절차를 설명한다.
상세 분석
논문은 “중간에 위치한 객체”라는 개념을 수학적으로 정의하고, 이를 평균제곱거리 최소화 문제로 귀결시킨다. 기존 PCA는 선형 부분공간을, k‑means는 0‑차원 점 집합을 각각 최적화하지만, 두 방법 모두 데이터의 비선형 구조를 포착하지 못한다는 한계가 있다. 저자는 이러한 한계를 극복하기 위해 ‘주축 그래프(principal graph)’와 ‘주축 매니폴드(principal manifold)’라는 일반화된 모델을 제안한다.
주축 그래프는 정점과 간선으로 구성된 연결 그래프이며, 각 정점은 데이터 공간에 매핑된 위치 벡터를 가진다. 그래프의 구조는 사전 정의된 ‘그래프 문법(grammar)’에 의해 점진적으로 확장·축소된다. 문법 규칙은 예를 들어 “정점 분할”, “간선 삽입”, “정점 병합” 등으로 구성되며, 각 규칙 적용 시 손실 함수(평균제곱거리)의 감소량을 평가한다. 손실 감소가 일정 임계값 이하가 되면 추가적인 복잡성 증가는 중단된다. 이 과정은 모델 복잡도와 과적합 사이의 트레이드오프를 자동으로 조절한다는 점에서 기존의 차원 축소 기법보다 유연하다.
학습 알고리즘은 EM 프레임워크를 차용한다. E‑단계에서는 현재 그래프(또는 매니폴드)상의 각 정점에 대해 가장 가까운 데이터 포인트를 할당하고, 할당된 포인트들의 가중 평균을 이용해 정점 위치를 업데이트한다. M‑단계에서는 그래프 문법을 적용해 구조를 수정한다. 특히, ‘근접 일반화(nearest generalisation)’를 도입해 정점 간 거리뿐 아니라 데이터 밀도와 곡률 정보를 고려한다. 이렇게 하면 데이터가 밀집된 영역에서는 정점이 촘촘히 배치되고, 희소한 영역에서는 간결한 구조가 유지된다.
주축 매니폴드의 경우, 그래프를 연속적인 매끄러운 곡면으로 확장한다. 저자는 매니폴드의 매개변수화(parameterization)를 스플라인 혹은 라디얼 베이시스 함수(RBF)와 같은 함수 기반으로 구현하고, EM 단계에서 매니폴드 위의 최근접점 투영을 수행한다. 이때 매니폴드의 차원(d)은 사전에 지정하거나 데이터 기반 차원 추정 기법으로 선택할 수 있다.
복잡도 제어는 두 가지 축을 가진다. 첫째는 그래프/매니폴드의 토폴로지(정점·간선 수)이며, 둘째는 정점당 자유도(예: 스플라인 제어점 수)이다. 저자는 베이지안 정보 기준(BIC)이나 교차 검증을 이용해 최적 복잡도를 자동 선택하는 전략을 제시한다. 실험 결과는 고차원 이미지, 유전자 발현 데이터, 물리 시뮬레이션 결과 등 다양한 도메인에서 기존 PCA·k‑means·Isomap·t‑SNE 대비 더 낮은 재구성 오차와 직관적인 시각화를 제공함을 보여준다.
요약하면, 이 장은 평균제곱거리 최소화를 중심으로 주축 그래프와 매니폴드라는 통합 모델을 제시하고, EM‑기반 학습과 그래프 문법을 통한 복잡도 조절 메커니즘을 상세히 설명한다. 이는 비선형 고차원 데이터의 구조적 해석과 시각화에 강력한 도구가 될 수 있다.