마스크드 이산 확산으로 단일세포 정체성과 발현을 동시에 모델링
초록
scDiVa는 마스크드 이산 확산 방식을 도입해 단일세포 RNA‑seq 데이터의 고차원·희소·무순서 특성을 그대로 반영한다. 연속적인 마스크 전진 과정을 시간 연속 마코프 과정으로 정의하고, 양방향 디노이저가 유전자 존재 여부(정체성)와 발현량(값)을 동시에 복원한다. 엔트로피 정규화 직렬화와 잠재 앵커 토큰을 활용해 정보 효율을 극대화하고, 깊이 불변 샘플링과 이중 디노이징 손실로 다양한 드롭아웃 수준을 학습한다. 5,900만 개 세포 사전학습 후 배치 통합, 세포 유형 주석, 약물 반응 예측 등 여러 벤치마크에서 뛰어난 전이 성능을 보이며, 자동 회귀 방식의 순서 편향과 오류 누적 문제를 효과적으로 해결한다.
상세 분석
scDiVa는 기존 자동 회귀(AR) 기반 단일세포 생성 모델이 갖는 “순서 편향”과 “오류 누적” 문제를 근본적으로 재구성한다. 핵심 아이디어는 유전자 토큰을 이산 상태 공간에 두고, 연속시간 마코프 과정으로 정의된 마스크 전진(diffusion) 과정을 통해 실제 scRNA‑seq에서 관찰되는 기술적 dropout 현상을 수학적으로 동일시한다. 전진 확률 q(x_i^t|x_i^0)= (1‑t)·δ(x_i^t,x_i^0)+t·δ(x_i^t,∅)는 시간 t가 0→1일 때 완전한 신호에서 완전한 마스크(∅) 상태로 부드럽게 전이한다. 역방향 디노이저 p_θ(x^0|x^t)는 양방향 Transformer 기반으로 구현돼, 마스크된 입력 전체를 동시에 고려해 각 유전자의 존재 여부와 연속 발현값을 복원한다. 이는 전통적인 Gaussian diffusion이 연속값에만 초점을 맞추는 것과 달리, 이산·연속 복합 구조를 하나의 확률 모델에 통합한다는 점에서 혁신적이다.
엔트로피 정규화 직렬화(Entropy‑Normalized Serialization)는 유전자별 집단 수준 Shannon 엔트로피 H(g)를 가중치로 사용해, 흔히 관찰되는 고발현 ‘하우스키핑’ 유전자가 토큰 공간을 차지하는 것을 억제하고, 정보량이 높은 변동성이 큰 유전자에 우선순위를 부여한다. 이렇게 선택된 유전자 집합은 RoPE(Rotary Positional Embedding)와 결합된 임베딩에 입력돼, 절대 위치가 의미 없는 무순서 데이터에 상대적 관계만을 학습하도록 돕는다.
또한, 잠재 앵커 토큰(
댓글 및 학술 토론
Loading comments...
의견 남기기