스케일 대규모 가상 세포 교란 예측을 위한 조건부 전송 모델
SCALE은 BioNeMo 기반 인프라와 LLaMA‑스타일 셋 인코더를 결합해, 고차원 희소 단일세포 데이터에서 조건부 최적 전송을 안정적으로 학습한다. 12.5배의 사전학습 가속과 1.3배의 추론 속도 향상을 달성했으며, Tahoe‑100M 벤치마크에서 PDCorr와 DE Overlap 지표를 각각 12.0%·10.7% 개선하였다.
저자: Shuizhou Chen, Lang Yu, Kedu Jin
가상 세포 모델은 단일 세포 측정값을 기반으로 유전·화학·시토카인 교란에 대한 세포 반응을 예측함으로써, 실험실에서 비용이 많이 드는 wet‑lab 실험을 사전에 검증할 수 있는 인실리코 플랫폼을 제공한다. 그러나 현재 대규모 교란 예측은 (i) 비효율적인 학습·추론 파이프라인, (ii) 고차원·희소 전사체 공간에서의 불안정한 모델링, (iii) 재구성 중심의 평가가 생물학적 충실도를 충분히 반영하지 못한다는 세 가지 병목에 직면해 있다. 이를 해결하기 위해 저자들은 SCALE이라는 대규모 기반 모델을 제안한다.
첫 번째로, BioNeMo 기반의 학습·추론 프레임워크를 구축하였다. BioNeMo는 NVIDIA NeMo를 생물학 데이터에 맞게 확장한 것으로, 데이터 로딩, 전처리, 분산 학습, 모델 서빙을 하나의 파이프라인으로 통합한다. 이 시스템은 데이터 입출력 병목을 최소화하고, 파라미터 서버와 GPU 클러스터를 활용해 모델 파라미터를 효율적으로 동기화한다. 실험 결과, 동일한 하드웨어 환경에서 기존 STATE 파이프라인 대비 사전학습 단계에서 12.51배, 추론 단계에서 1.29배의 속도 향상을 달성했다.
두 번째로, 교란 예측을 “조건부 전송”(conditional transport) 문제로 공식화하고, 이를 구현하기 위해 셋‑인식 흐름 아키텍처를 설계했다. 입력은 제어 집합 X₀와 교란 조건(세포 유형 c, 교란 종류 p, 배치 b)이다. 각 셀은 유전자‑레벨 인코더 f_gene을 통해 dₕ 차원의 임베딩 h_i를 얻는다. 여기서 f_gene은 LLaMA‑스타일의 멀티‑쿼리 어텐션을 사용해 유전자 간 상호작용을 캡처한다. 이후 DeepSets 레이어를 통해 셀 집합 전체에 대한 요약 s(X)=ρ(1/N Σ_i φ(h_i))를 계산하고, 이 요약을 각 셀 임베딩에 다시 결합해 재조정된 임베딩 z_i=ψ(h_i, s(X))를 만든다. 이 과정은 셀 순열에 대해 불변성을 유지하면서도 전체 집합의 전역 정보를 반영한다.
전송 단계에서는 조건부 JiT(Just‑in‑Time) 파라미터화된 속도장 네트워크를 도입한다. 네트워크는 셀 잠재 표현 z_i, 교란 메타데이터(p, c, b), 그리고 시간 파라미터 t(0~1)를 입력받아, 다중 헤드 크로스‑어텐션을 통해 조건 정보를 셀 임베딩에 융합한다. 출력은 속도 v_i이며, 이를 통해 z_i에 더해 목표 집합 Z₁=Z₀+v_i를 생성한다. 손실 함수는 (1) 엔드포인트 정합 손실 ‖Z₁̂−Z₁‖₂, (2) MMD 기반 분포 정렬 손실, (3) 재구성 손실 ‖X̂−X‖₂를 동시에 최소화한다. 이러한 엔드포인트‑정렬 감독은 실제 교란 데이터에서 관측 가능한 “시작·끝” 상태만을 이용해 학습을 진행하므로, 희소하고 고차원인 전사체 공간에서도 안정적인 수렴을 보인다.
세 번째로, 평가 프로토콜을 재구성하였다. 기존 연구는 주로 재구성 오차(RMSE)나 로그우도와 같은 통계적 지표에 의존했지만, 이는 교란에 의해 발생하는 집합 수준의 전이 효과를 충분히 반영하지 못한다. SCALE은 Tahoe‑100M(100M 셀, 30여 종류의 교란) 벤치마크에서 두 가지 생물학적 의미를 갖는 지표를 사용한다. PDCorr는 교란 전후 셀 군집 간 상관 관계를 측정하고, DE Overlap은 교란에 의해 유의하게 발현이 변한 유전자의 겹침 비율을 평가한다. 결과적으로 SCALE은 STATE 대비 PDCorr를 12.02%, DE Overlap을 10.66% 향상시켰다. 이는 모델이 단순 재구성보다 교란에 따른 전이 메커니즘을 더 정확히 포착했음을 의미한다.
전체적으로, 저자들은 (1) 대규모 분산 인프라, (2) 셋‑인식 조건부 전송 모델, (3) 생물학적 충실도 기반 평가라는 세 축을 동시에 강화함으로써, 가상 세포 교란 예측 분야에서 새로운 기준을 제시한다. 향후 연구에서는 다중 교란의 복합 효과, 시간 연속적인 전이 모델링, 그리고 실제 실험 설계와 직접 연결되는 downstream task(예: 약물 스크리닝, 유전자 기능 예측) 등에 SCALE을 적용해 그 확장성을 검증할 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기