다중해상도 상관분석으로 단일세포 유전자 발현 하위집단 탐색

다중해상도 상관분석으로 단일세포 유전자 발현 하위집단 탐색

초록

본 논문은 저차원 단일세포 유전자 발현 데이터에서 하위집단을 시각적으로 식별하기 위한 새로운 방법인 다중해상도 상관분석(MCA)을 제안한다. MCA는 사전 정의된 상호작용 규모 없이 로컬 페어와이즈 상관관계를 다양한 해상도로 평가하여, 기존 클러스터링이 놓칠 수 있는 미세한 조절 차이를 포착한다. 시뮬레이션과 마우스 배아줄기세포(qPCR) 데이터를 통해 MCA가 알려진 하위집단을 재현하고, 새로운 잠재적 하위집단과 오류 가능성을 드러냄을 보였다.

상세 분석

MCA는 데이터 전체를 고정된 크기의 윈도우가 아니라, 선택된 두 변수(예: 유전자)의 값 범위에 따라 동적으로 정의되는 서브셋을 이용한다. 각 서브셋에서 피어슨 상관계수를 계산하고, 서브셋의 중심값과 크기를 좌표축에 매핑함으로써 2차원 ‘상관지도’를 만든다. 이 지도는 해상도 파라미터(윈도우 크기 비율)에 따라 다중 스케일로 표현되며, 작은 윈도우는 국소적인 상관 변화를, 큰 윈도우는 전반적인 경향을 보여준다.

핵심 아이디어는 “상관이 변하는 지점”이 하위집단 경계가 될 가능성이 높다는 가정이다. 따라서 상관계수가 급격히 바뀌는 영역을 시각적으로 탐색하면, 기존의 거리 기반 클러스터링이 놓치는 비선형 또는 비정형 구조를 발견할 수 있다. 또한, MCA는 각 서브셋에 포함된 샘플 수를 색상이나 투명도로 표시함으로써 데이터 밀도가 낮은 영역에서 발생할 수 있는 통계적 불안정을 즉시 인지하게 한다.

시뮬레이션에서는 3개의 유전자와 2개의 조절 모듈을 가진 작은 네트워크를 모델링하였다. 서로 다른 모듈에서 생성된 샘플은 전체적으로 겹치는 분포를 보였지만, MCA는 모듈별 상관 패턴이 달라지는 구간을 정확히 포착했다. 이는 전통적인 PCA나 k‑means가 구분하기 어려운 경우에도 MCA가 유용함을 시사한다.

실제 데이터에서는 마우스 배아줄기세포의 48개 유전자 qPCR 측정을 사용하였다. 기존 연구에서 ‘플루오레센트’와 ‘플라스마’ 하위집단으로 구분된 것을 MCA는 동일하게 재현했으며, 추가적으로 ‘중간 상태’라 추정되는 새로운 영역을 제시한다. 특히, 특정 유전자 쌍(예: Nanog‑Oct4)의 상관이 특정 서브셋에서만 양의 상관을 보이고, 다른 서브셋에서는 음의 상관을 보이는 현상이 발견되어, 이들 유전자의 조절 메커니즘이 상황에 따라 다를 수 있음을 암시한다.

MCA의 장점은 (1) 사전 가정이 적고, (2) 시각적 직관성을 제공하며, (3) 데이터 밀도와 상관 안정성을 동시에 고려한다는 점이다. 반면, 윈도우 크기 선택이 결과에 영향을 미칠 수 있고, 고차원 데이터에서는 계산량이 급증한다는 한계가 있다. 이를 보완하기 위해 차원 축소 전 사전 필터링이나 병렬 처리 기법이 제안된다.

전반적으로 MCA는 저차원 단일세포 데이터에서 하위집단을 탐색하고, 상관 기반 가설을 생성하는 강력한 도구로 자리매김할 가능성이 크다.