다중오믹스 메타셀 식별을 위한 교차모달 임베딩
초록
COEM은 scRNA‑seq와 scATAC‑seq를 동시에 측정한 단일세포 다중오믹스 데이터를 공동 잠재공간에 매핑한 뒤, 스펙트럴 클러스터링으로 메타셀을 정의한다. 기존 단일모달 기반 SEACells보다 메타셀의 순도, 분리도, 컴팩트성을 개선하고, 피크‑유전자 연관 분석에서 부정적 상관을 크게 감소시킨다.
상세 분석
본 논문은 메타셀(MetaCell)이라는 개념을 확장하여, 두 가지 핵심 모달리티인 scRNA‑seq와 scATAC‑seq를 동시에 활용하는 새로운 프레임워크 COEM을 제안한다. 핵심 아이디어는 다중뷰 변분 오토인코더(VAE)를 이용해 두 데이터 유형을 하나의 공동 잠재변수 z 에 매핑하는 것이다. 여기서 scRNA‑seq는 제로‑인플레이티드 포아송(ZIP) 분포, scATAC‑seq는 네거티브 바이노미얼(NB) 분포를 가정하고, 잠재공간 z 는 클래스별 가우시안 혼합 모델(GMM)로 정규화한다. 인코더는 각각의 모달리티에 대해 어텐션 기반 2‑채널 네트워크를 사용해 특징을 추출하고, 이를 결합해 qφ(z|x,y,c) 를 추정한다. 디코더는 동일한 어텐션 구조로 복원 손실을 최소화한다.
잠재공간 z 를 얻은 뒤, 저차원 유클리드 거리 기반 k‑NN 그래프를 구축하고, RBF 커널을 적용해 연결성을 강화한 유사도 행렬을 만든다. 기존 SEACells가 사용한 아키타입 분석(archetypal analysis)과 달리, COEM은 스펙트럴 클러스터링을 적용해 그래프의 라플라시안 고유벡터를 이용해 메타셀을 정의한다. 이 접근법은 그래프 연결성만을 활용하므로 계산 복잡도가 낮아, 동일한 z 에 대해 아키타입 분석보다 한 차례 정도 빠른 실행 시간을 보인다(표 1).
평가 지표는 메타셀의 컴팩트성(내부 동질성), 분리도(클러스터 간 거리), 그리고 셀 타입 순도(동일 세포 유형 비율)이다. 다섯 개의 공개 데이터셋( sci‑CAR, SNARE‑seq, 10X Multiome PBMC, CD34⁺ 골수, T‑cell 제거 골수)에서 COEM은 대부분의 경우 SEACells‑ATAC 및 SEACells‑RNA보다 높은 순도와 분리도를 달성했으며, 특히 연속적인 발달 궤적을 가진 데이터에서 그 차이가 두드러졌다. 또한 피크‑유전자 상관 분석에서는 COEM 메타셀에서 부정적 상관 비율이 13% 수준으로 크게 감소했으며, 이는 단일모달 기반 메타셀에서 관찰되는 2025%의 부정적 연관을 크게 억제한다. 이는 “시간 지연(time lag)” 현상을 고려한 다중모달 통합이 실제 생물학적 연관성을 더 정확히 포착함을 의미한다.
한계점으로는 VAE 학습 시 모달리티 간 스케일 차이와 드롭아웃 비율 차이가 잠재공간에 편향을 줄 수 있다는 점, 그리고 스펙트럴 클러스터링의 클러스터 수 선택이 결과에 민감할 수 있다는 점을 들 수 있다. 향후 연구에서는 인과관계 기반 표현 학습(예: 인과적 VAE)이나 최적 수송(OT) 기반 메타셀 전이 모델을 도입해 동적 전이와 시간 지연을 보다 정량화하려는 시도가 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기