대규모 scRNAseq 데이터를 위한 이분 그래프 어텐션 기반 클러스터링
초록
BGFormer는 학습 가능한 앵커 토큰을 도입해 셀‑앵커 간 이분 그래프 어텐션을 수행함으로써 셀 간 전역 관계를 선형 시간 복잡도로 모델링한다. 앵커 토큰은 ZINB 기반 재구성 손실과 커밋먼트 손실을 통해 전역 정보를 학습하고, 다중 헤드 바이‑어텐션으로 다양한 관계를 포착한다. 실험 결과, 기존 그래프·트랜스포머 기반 방법보다 메모리·시간 효율이 높으며 클러스터링 정확도도 향상된다.
상세 분석
본 논문은 scRNA‑seq 데이터의 특성(고차원, 희소성, 높은 드롭아웃) 때문에 기존의 k‑NN 기반 그래프 구축이나 전통적인 트랜스포머의 O(n²) self‑attention이 확장성에 한계를 가진다는 점을 정확히 지적한다. 이를 해결하기 위해 제안된 BGFormer는 두 가지 핵심 아이디어를 결합한다. 첫째, 전체 데이터셋을 대표하는 제한된 수(m)의 학습 가능한 앵커 토큰 U={u₁,…,u_m}을 도입한다. 이 앵커는 미니배치 전체에 공유되며, 셀‑앵커 매핑을 통해 전역 정보를 압축한다. 둘째, 셀‑앵커 간의 유사도를 softmax(QKᵀ/√d_k) 형태로 계산하는 이분 그래프 어텐션(B‑attention)을 적용한다. 여기서 Q = XW_p, K = UW_k, V = UW_v이며, 다중 헤드 구조를 통해 각 헤드가 서로 다른 임베딩 서브스페이스에서 독립적인 이분 그래프를 학습한다. 이 설계는 어텐션 연산이 O(n·m)으로 감소하여 n에 대해 선형 복잡도를 보장한다.
앵커 토큰 학습은 두 단계로 이루어진다. (1) 셀 임베딩 h_i = W_e x_i + b_e 로부터 코사인 유사도 기반 최근접 앵커 u*_i를 선택하고, (2) 선택된 앵커를 디코더에 입력해 ZINB(π_i, μ_i, θ_i) 파라미터를 예측, 원본 카운트 행렬을 재구성한다. 재구성 손실 L_d와 앵커와 셀 임베딩 사이의 L2 거리 기반 커밋먼트 손실 L_com을 합한 L_a가 앵커 학습의 목표이다. 이는 앵커가 실제 셀 분포를 잘 반영하도록 강제한다.
클러스터링 목표는 세 가지 손실의 가중합 L = L_s + L_c + L_a 로 정의된다. L_c는 기존 DEC 방식의 KL 발산 손실로, 임베딩 Z가 클러스터 중심 μ_j에 가까워지도록 유도한다. L_s는 셀 자체를 Z로부터 재구성하는 자기지도 손실이며, 이는 셀 표현의 표현력을 강화한다. 전체 학습은 미니배치 SGD로 진행되며, 앵커는 배치 간에 공유되므로 전역 구조 정보를 손실 없이 유지한다.
이론적 분석에서는 이분 그래프 어텐션이 배치 내에서 완전 self‑attention을 저차원 근사(low‑rank) 형태로 대체한다는 정리를 제시한다. 정리 V.1에 따르면, 임의의 Q_b, K, V에 대해 충분히 큰 m(앵커 수)과 적절한 헤드 수를 선택하면, 근사 행렬 ˜A_b가 원본 어텐션 행렬 A_b와 ε 수준 이하의 차이를 보이며 확률적으로 1‑o(1) 정도의 신뢰도를 갖는다. 이는 실험적 스케일업을 뒷받침하는 수학적 근거가 된다.
실험에서는 Human Cell Atlas, Tabula Muris, 10x Genomics 등 수십만 셀 규모의 공개 데이터셋을 사용하였다. 메모리 사용량과 실행 시간은 기존 scGraphformer·TOSICA 대비 510배 감소했으며, ARI·NMI·ACC 등 클러스터링 지표에서도 평균 24% 향상을 기록했다. 특히 앵커 수 m을 128~256 수준으로 제한했을 때도 성능 저하가 거의 없었으며, 이는 앵커가 충분히 전역 정보를 압축할 수 있음을 보여준다.
전체적으로 BGFormer는 (1) 전역 관계를 유지하면서 O(n) 복잡도로 확장성을 확보, (2) ZINB 기반 재구성으로 scRNA‑seq 특유의 드롭아웃을 모델링, (3) 다중 헤드 이분 어텐션으로 다양한 셀‑앵커 상호작용을 포착한다는 세 가지 강점을 갖는다. 향후 연구에서는 앵커 토큰을 사전 학습된 바이오마커나 도메인 지식과 결합하거나, 멀티‑오믹스 데이터에 확장하는 방안을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기