클러스터샤플리 차원 축소 결과 해석
초록
본 논문은 차원 축소( DR ) 결과를 클러스터 중심으로 해석하기 위해 Shapley 값을 활용한 새로운 방법론인 ClusterShapley를 제안한다. 고차원 데이터의 각 특성이 저차원 투영에서 형성된 클러스터에 어떻게 기여하는지를 정량화하고, 이를 시각화하기 위한 여러 시각화 기법을 설계하였다. 공개 데이터셋을 이용한 사례 연구를 통해 의료·사회 데이터에서 의미 있는 인사이트를 도출함을 보였다.
상세 분석
ClusterShapley는 기존 차원 축소 해석 기법이 갖는 두 가지 주요 한계를 극복한다. 첫째, 기존 방법은 저차원 투영 자체만을 시각화하거나, 특성값을 단순히 색이나 크기로 표시해 특성의 기여도를 정량적으로 파악하지 못한다. 둘째, 특성 간 상호작용을 고려하지 않아, 개별 특성이 클러스터 형성에 미치는 실제 영향을 과소평가한다. 이를 해결하기 위해 저자들은 Shapley 값이라는 협동 게임 이론 기반의 기여도 측정 방식을 차원 축소 결과에 적용하였다. Shapley 값은 모든 특성 조합에 대한 모델 예측 변화량을 평균함으로써, 각 특성이 다른 특성과 어떻게 상호작용하는지를 포착한다.
구현 측면에서 저자들은 고차원 데이터에 직접 Shapley 값을 적용하는 계산 복잡도를 완화하기 위해 KernelSHAP를 사용하였다. KernelSHAP는 샘플링된 특성 순열에 대해 선형 회귀를 수행해 근사값을 얻으며, 이는 2ⁿ개의 완전 조합을 계산하는 비용을 크게 줄인다. 또한, 클러스터를 정의하는 단계에서 사용자는 시각적 라소(lasso) 도구를 통해 직접 저차원 투영에서 인지된 클러스터를 지정하거나, 사전 군집화 알고리즘을 적용할 수 있다. 이렇게 정의된 클러스터는 고차원 공간에 매핑되어 각 샘플에 대한 클러스터 소속 확률을 산출하고, 이 확률을 Shapley 값 추정에 활용한다.
시각화 측면에서는 두 가지 주요 메타포가 제시된다. 첫째, “Shapley 히트맵”은 각 클러스터별 특성 기여도를 색상 강도로 표현해, 어떤 특성이 특정 클러스터를 형성하거나 구분하는 데 핵심적인지를 한눈에 파악하게 한다. 둘째, “밀도 기반 특성 집합”은 커널 밀도 추정을 이용해 상관관계가 높은 특성들을 군집화하고, 해당 군집을 하나의 축으로 축소시켜 시각적 복잡성을 낮춘다. 이러한 시각화는 분석가가 고차원 특성 공간을 직관적으로 탐색하고, 클러스터 간 관계를 해석하는 데 큰 도움을 준다.
실험에서는 유전자 발현 데이터와 의료 기록 데이터 등 두 종류의 공개 데이터셋을 사용하였다. 유전자 데이터에서는 특정 클러스터가 특정 세포 유형과 강하게 연관됨을 확인했고, Shapley 값이 높은 유전자들을 통해 해당 세포 유형의 생물학적 마커를 식별하였다. 의료 데이터에서는 환자 군집이 질병 단계와 연관되었으며, Shapley 값이 높은 임상 변수들이 질병 진행을 설명하는 주요 인자로 드러났다. 이러한 결과는 기존 차원 축소 해석 방법이 놓치기 쉬운 특성 간 상호작용과 클러스터 형성 메커니즘을 효과적으로 드러낸다.
한계점으로는 Shapley 값 근사 과정에서 샘플링 수에 따라 결과 변동성이 존재한다는 점, 그리고 클러스터 정의가 사용자의 주관에 크게 의존한다는 점을 들 수 있다. 향후 연구에서는 자동 클러스터링과 샘플링 전략 최적화를 통해 이러한 변동성을 감소시키고, 다양한 차원 축소 알고리즘(t‑SNE, UMAP, PCA 등)과의 호환성을 확대할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기