시퀀스 기반 전이 모델 STRAND 단일세포 교란 예측의 새로운 패러다임

시퀀스 기반 전이 모델 STRAND 단일세포 교란 예측의 새로운 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

STRAND는 교란 위치의 DNA 서열을 인코딩해 조건부 전이 과정을 통해 단일세포 전사체 변화를 예측한다. 유전자 수준 모델이 놓치는 전사 시작점·조절요소 차이를 포착해, 학습에 보이지 않은 부위에서도 제로샷 예측이 가능하며, 유전체 커버리지를 1.5%에서 95%로 확대한다.

상세 분석

본 논문은 유전자를 표적으로 하는 CRISPR 교란이 동일 유전자 내에서도 다른 전사 시작점(TSS)이나 인핸서 등 위치에 따라 상이한 전사 반응을 일으킨다는 사실에 주목한다. 기존의 단일세포 교란 예측 모델은 교란을 ‘gene ID’라는 고정된 카테고리로만 표현해, 이러한 미세한 위치 차이를 무시한다. STRAND는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 교란 부위의 2 kb 정도의 DNA 서열을 직접 인코딩해 교란을 ‘시퀀스 기반 표현’으로 변환한다. 이는 CNN‑Transformer 혼합 구조로 구현되어, 염기 서열 내 보존된 모티프와 변이 패턴을 학습한다. 둘째, 이 시퀀스 표현을 조건으로 사용해 ‘조건부 운송(conditional transport)’ 모델을 구동한다. 구체적으로, 제어(비교) 세포의 라티스 공간 표현을 교란 시퀀스에 의해 파라미터화된 흐름망(flow)으로 변환해, 목표 교란 상태의 분포를 샘플링한다. 이는 기존의 VAE‑기반 혹은 직접 매핑 모델과 달리, 확률적 전이 과정을 명시적으로 모델링함으로써 불확실성을 자연스럽게 반영한다.

실험에서는 K562, Jurkat, RPE1 등 세 가지 인간 세포주에서 공개된 CRISPR‑Perturb‑Seq 데이터를 활용했다. 저샘플(≤10개 셀) 상황에서 STRAND는 기존 모델 대비 33%까지 AUROC 향상을 보였으며, 전혀 보지 못한 유전자 교란에 대해서도 평균 순위가 가장 높았다. 특히, 다른 세포주로 전이(transfer)할 때 Pearson 상관계수가 0.14 상승하는 등, 모델의 일반화 능력이 크게 개선되었다. Ablation 실험에서는 시퀀스 인코더를 제거하거나 전이 과정을 단순 회귀로 대체했을 때 성능이 급격히 감소함을 확인, 두 구성 요소가 시너지 효과를 내는 것을 입증한다. 마지막으로, 대안적 TSS를 가진 유전자(예: MYC, CDKN1A)의 경우, STRAND는 각 TSS 별 교란 효과를 구분해 시각화했으며, 이는 유전자 수준 모델이 전혀 포착하지 못한 미세한 차이였다.

이러한 결과는 ‘유전체 전반에 걸친 교란 예측’을 가능하게 하는 중요한 전환점으로, 향후 대규모 기능 유전체학, 약물 타깃 검증, 그리고 맞춤형 유전자 치료 설계에 직접적인 활용 가능성을 시사한다. 특히, 시퀀스 기반 표현은 새로운 변이(예: SNP, 인서션/딜리션)에도 바로 적용할 수 있어, 기존에 데이터가 부족했던 희귀 변이 연구에도 큰 파급 효과를 기대할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기