바이오메디컬 데이터를 위한 그래프 기반 자동 군집화 기법 VillageNet
초록
VillageNet은 고차원 바이오데이터를 사전 군집 수 없이 자동으로 클러스터링하는 방법이다. 먼저 K‑Means로 데이터를 과다 클러스터링해 “마을(village)”을 만든 뒤, 마을 간 경계점 정보를 이용해 가중 그래프를 구축한다. 이후 Walk‑Likelihood Community Finder(WLCF)로 그래프를 분할해 최종 군집을 도출한다. 비바이오 및 네 가지 바이오메디컬 데이터셋에서 NMI·ARI 기준으로 기존 최첨단 방법들을 능가하며, 시간 복잡도는 O(N·ν·d)로 대규모 데이터에 적합하다.
상세 분석
VillageNet은 기존 군집화 기법이 갖는 “클러스터 형태 가정”과 “군집 수 사전 지정”이라는 두 가지 근본적인 제약을 동시에 해소한다는 점에서 혁신적이다. 핵심 아이디어는 데이터 전체를 매우 많은 수(ν)의 K‑Means 클러스터, 즉 마을로 과다 분할한 뒤, 각 마을을 Voronoi 셀로 간주해 국소적으로 선형 구조를 가정한다는 것이다. 이렇게 하면 고차원에서 비선형 경계가 존재하더라도 마을 수준에서는 거의 선형에 가깝게 변환된다.
마을 간 연결성은 각 마을의 “외부(exterior)” 포인트, 즉 다른 마을과의 경계에 가장 가까운 η개의 데이터 포인트를 정의함으로써 정량화한다. 두 마을 U와 V 사이의 가중치는 U의 외부 포인트가 V에 속한 수와 V의 외부 포인트가 U에 속한 수의 합으로 계산되며, 이는 경계 근처 데이터 밀도가 높을수록 큰 가중치를 부여한다. 이렇게 구성된 마을 네트워크는 대규모 데이터의 전역 구조를 압축적으로 표현한다.
전역 구조 추출 단계에서는 WLCF라는 랜덤 워크 기반 커뮤니티 탐지 알고리즘을 적용한다. WLCF는 노드 방문 확률을 최대우도 추정하고 모듈러리티 최적화를 결합해, 사전에 군집 수를 지정하지 않아도 자연스럽게 최적 커뮤니티 수를 도출한다. 최종 클러스터는 동일 커뮤니티에 속한 마을들의 데이터를 합치는 방식으로 얻어진다.
시간 복잡도 분석에 따르면, 가장 비용이 큰 단계는 K‑Means 과다 클러스터링이며 O(N·ν·d)이다. 이후 외부 마을 찾기(O(N·ν)), 그래프 구축(O(N·ν²)지만 행렬 연산 최적화로 실질적 비용 감소, WLCF(O(ν¹·⁵))까지 전체 복잡도는 ν≪N일 때 선형에 가깝다.
하이퍼파라미터 ν와 η는 각각 마을 수와 외부 포인트 수를 조절한다. ν가 클수록 마을이 작아져 원래 클러스터 경계를 더 정밀히 포착하지만 계산량이 증가한다. η는 마을 간 연결 강도를 조절하는데, 너무 크면 그래프가 과도하게 촘촘해져 지역 구조가 희석되고, 너무 작으면 연결이 부족해 군집 분할이 부정확해진다. 저자들은 digits 데이터셋을 이용해 NMI 기준 최적 파라미터 탐색 결과를 제시하며, 실제 바이오메디컬 데이터에서도 비슷한 경향을 보였다.
성능 평가는 비바이오 benchmark(예: MNIST, digits)과 4가지 바이오메디컬 데이터(플로우 사이토메트리, 조직 이미지, 싱글셀 RNA‑seq, 이미지 기반 세포 프로파일링)에서 수행되었다. NMI와 Adjusted Rand Index 모두 기존 방법(Louvain, Leiden, Phenograph, DBSCAN 등)보다 우수하거나 동등한 결과를 보였으며, 특히 비선형 클러스터가 섞인 경우 VillageNet이 강점을 나타냈다. 또한 차원 축소 없이 원본 고차원 데이터를 직접 처리함으로써 정보 손실을 최소화했다.
한계점으로는 ν와 η 선택이 데이터 특성에 따라 민감하게 작용한다는 점, K‑Means 초기화에 따라 마을 구성이 달라질 수 있다는 점, 그리고 WLCF가 아직 공개된 구현이 제한적이라는 점을 들 수 있다. 향후 연구에서는 자동 파라미터 튜닝, 다른 초기 클러스터링 기법(예: Gaussian Mixture)과의 결합, 그리고 WLCF의 확장성을 검증하는 것이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기