다중시각 학습으로 만든 신뢰성 높은 차원 축소 합의 시각화
초록
다양한 차원 축소 기법과 하이퍼파라미터 선택에 따라 서로 다른 시각화가 나타나는 문제를 해결하고자, 저자는 다중‑뷰 학습 아이디어를 활용한 Consensus Multidimensional Scaling(CoMDS)과 그 지역 변형인 LoCoMDS를 제안한다. 각 기법의 저차원 임베딩을 거리 행렬로 변환한 뒤, 다중‑뷰 MDS 최적화를 통해 모든 뷰에서 공유되는 구조를 추출하고, 자동 스케일링 행렬을 학습함으로써 최종 합의 임베딩을 얻는다. 실험에서는 시뮬레이션 데이터와 싱글‑셀 RNA‑seq 등 실제 데이터에서 기존 방법보다 일관된 구조와 하이퍼파라미터에 대한 강인성을 보였다.
상세 분석
본 논문은 차원 축소 시각화의 불안정성을 “공통 패턴”을 찾아 합치는 방식으로 해결하고자 한다. 핵심 아이디어는 (1) 각 차원 축소 방법(PCA, t‑SNE, UMAP 등) 혹은 동일 방법의 다양한 하이퍼파라미터 설정으로부터 얻은 저차원 임베딩 Z^(m) 를 거리 행렬 D^(m) 로 변환한다는 점이다. 거리 행렬은 회전·반사·스케일링에 불변하므로, 서로 다른 좌표계에 놓인 임베딩을 직접 정렬할 필요가 없으며, 이는 기존 메타‑스펙(Meta‑Spec)에서 수행한 정규화 단계와 유사하지만, 본 연구는 정규화 파라미터를 고정하지 않고 최적화 과정에서 자동으로 학습한다.
다음 단계는 다중‑뷰 MDS 최적화 문제(식 2)이다. 여기서는 공통 임베딩 Z와 각 뷰별 스케일링 행렬 W^(m) (대각 행렬) 를 동시에 학습한다. 목표는 모든 뷰의 거리 D^(m) 와 Z에 적용된 스케일링 후 거리 d(W^(m)Z*_i, W^(m)Z*_j) 사이의 차이를 최소화하는 것이다. 이 접근법은 1970년대 심리측정학에서 제안된 INDSCAL을 그대로 차원 축소 합의 문제에 적용한 것으로, 기존 다중‑뷰 MDS와 달리 뷰별 가중치를 동일하게 두고 스케일링만을 조정한다는 점에서 해석이 직관적이다.
알고리즘적으로는 MM(majorization‑minimization) 절차를 이용해 교대 최적화를 수행한다. 각 반복에서 (i) 고정된 W^(m) 하에 Z* 를 업데이트하고, (ii) 고정된 Z* 하에 각 W^(m) 를 닫힌 형태로 업데이트한다. 이는 기존 MDS의 스트레스(stress) 최소화와 동일한 형태이므로, 수렴 보장이 있다. 또한, 식 3에 제시된 가중치 ω^(m)_ij 와 정규화 항 λ·penalty 를 도입함으로써 결측값, 이상치, 혹은 특정 뷰에 대한 신뢰도 조정이 가능하다.
LoCoMDS는 위의 프레임워크에 로컬 가중치(데이터 포인트 쌍별 ω) 를 도입해, 전체 구조보다는 지역적 일관성에 초점을 맞춘 변형이다. 이는 이상치가 존재하거나 일부 뷰가 특정 서브클러스터에만 민감할 때, 전체 스트레스를 과도하게 증가시키는 문제를 완화한다.
실험에서는 (1) 가우시안 혼합 모델을 이용한 시뮬레이션에서 알려진 토폴로지를 복원하고, (2) HIV 환자 혈액 단일세포 RNA‑seq 데이터에 대해 PCA·kPCA·t‑SNE·UMAP 네 개의 뷰를 합성하였다. CoMDS는 각 뷰가 강조하는 서로 다른 클러스터 경계를 조화롭게 통합해, 기존 개별 시각화보다 더 일관된 세포 유형 구분을 제공한다. 메타‑스펙과 비교했을 때, 최종 시각화가 특정 선택된 차원 축소 방법에 의존하지 않으며, 스트레스와 클러스터 일관성 지표에서 우수한 성능을 보였다.
이 논문의 주요 기여는 (a) 차원 축소 결과를 직접 합치는 것이 아니라 거리 기반 다중‑뷰 MDS로 변환해 회전·스케일링 문제를 회피한 점, (b) 스케일링 행렬을 자동 학습함으로써 각 뷰의 상대적 중요도를 데이터에 의해 결정하게 한 점, (c) 로컬 변형을 통해 이상치와 뷰 간 불균형에 대한 견고성을 확보한 점이다. 한계로는 거리 행렬 계산이 O(n²) 비용을 요구해 대규모 데이터에선 근사 방법이 필요하고, 스케일링 행렬이 대각 행렬에 제한되어 있어 복잡한 비선형 변환을 포착하지 못한다는 점이 있다. 향후 연구에서는 랜덤 샘플링 기반 거리 근사, 비대각 스케일링 혹은 커널 기반 확장을 통해 확장성을 높일 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기