STRAND: 염기서열‑조건부 전이 모델로 단일세포 교란 예측하기

읽는 시간: 9 분
...

📝 Abstract

Predicting how genetic perturbations change cellular state is a core problem for building controllable models of gene regulation. Perturbations targeting the same gene can produce different transcriptional responses depending on their genomic locus, including different transcription start sites and regulatory elements. Gene-level perturbation models collapse these distinct interventions into the same representation. We introduce STRAND, a generative model that predicts single-cell transcriptional responses by conditioning on regulatory DNA sequence. STRAND represents a perturbation by encoding the sequence at its genomic locus and uses this representation to parameterize a conditional transport process from control to perturbed cell states. Representing perturbations by sequence, rather than by a fixed set of gene identifiers, supports zero-shot inference at loci not seen during training and expands inference-time genomic coverage from ~1.5% for gene-level single-cell foundation models to ~95% of the genome. We evaluate STRAND on CRISPR perturbation datasets in K562, Jurkat, and RPE1 cells. STRAND improves discrimination scores by up to 33% in low-sample regimes, achieves the best average rank on unseen gene perturbation benchmarks, and improves transfer to novel cell lines by up to 0.14 in Pearson correlation. Ablations isolate the gains to sequence conditioning and transport, and case studies show that STRAND resolves functionally alternative transcription start sites missed by gene-level models.

💡 Analysis

**

1. 연구 배경 및 필요성

  • 유전자‑레벨 한계: 기존 단일세포 교란 예측 모델(CPA, scGen, GEARS 등)은 교란을 ‘유전자 ID’ 혹은 정적 그래프 노드로만 표현한다. 이는 CRISPR‑i/a, 베이스 편집 등 정밀 좌위 교란을 수행할 수 있는 최신 실험 기술과 불일치한다.
  • 조절 요소의 다양성: 같은 유전자를 표적으로 하더라도, 코딩 영역 vs. 특정 enhancer, 혹은 대체 TSS 등 다른 조절 서열을 건드리면 전혀 다른 표현형을 유발한다. 따라서 서열‑레벨 교란 표현이 필수적이다.
  • 유전체 커버리지: 인간 유전체의 98 %는 비코딩 영역이며, 대부분의 질병 연관 변이가 여기서 발생한다. 유전자‑레벨 모델은 이 영역을 거의 다루지 못한다.

2. 핵심 아이디어 – “Sequence‑Conditioned Transport”

  1. DNA 서열 인코딩

    • 사전 학습된 DNA foundation model(예: Flashzoi의 U‑Net 백본)을 사용해 목표 좌위(길이 ≈ 524 kb) 전체를 토큰 임베딩으로 변환.
    • 교란 마스크 m을 통해 실제 편집되는 위치만을 강조하고, 평균 풀링 후 MLP로 교란 임베딩 u_p 생성.
  2. RNA 잠재공간 매핑

    • 사전 학습된 RNA foundation model(e_ψ)으로 각 세포의 발현 프로파일을 고차원 잠재벡터 z에 매핑.
  3. 조건부 전이 모델

    • z_p ~ G_θ(z_c, s, m) 형태의 조건부 확률 모델을 학습한다. 여기서 G_θlatent diffusion 기반의 생성 네트워크이며, DNA 교란 임베딩 u_p를 조건으로 받아 대조군 잠재벡터 z_c를 교란 후 잠재벡터 z_p전이시킨다.
    • 교란‑대조 쌍이 비쌍(pairwise) 형태이므로, 스케일러블한 Optimal Transport (OT) 매칭을 이용해 학습 데이터 간 최적 매핑을 추정한다.
  4. Zero‑Shot 및 전이 가능성

    • 교란 표현이 연속적인 서열 함수이므로, 학습에 보지 못한 좌표라도 임베딩을 바로 생성해 전이 모델에 입력 가능 → 95 % 유전체 커버 달성.

3. 실험 설계 및 결과

실험데이터주요 지표STRAND vs. 베이스라인
저샘플(≤ 50 cell)K562 CRISPRiDiscrimination ↑ 33 %기존 CPA, scGen 등보다 크게 우위
Unseen‑gene 교란Jurkat, RPE1평균 순위 1위유전자‑레벨 모델이 2~3위
Cell‑line 전이K562 → JurkatΔPearson ↑ 0.14동일 교란에 대한 일반화 향상
Ablation (‑seq, ‑transport)K562Energy Distance ↓ 38.9 % / R² ↑ 27.6 %서열 조건화와 전이 각각 기여 확인
  • 서열 조건화만 제거해도 성능이 크게 떨어지며, 전이 메커니즘(latent diffusion)만 제거해도 비슷한 수준의 손실이 발생한다. 이는 두 요소가 상호 보완적으로 작용한다는 것을 의미한다.
  • Case Study: BCL11A 유전자의 두 다른 enhancer를 각각 교란했을 때, STRAND은 각각 치명적 vs. 치료적 효과를 정확히 구분했으며, 유전자‑레벨 모델은 동일한 ‘BCL11A’ 라벨만을 출력해 차이를 포착하지 못했다.

4. 장점 및 한계

장점

  • 고해상도 교란 표현: 서열 기반 임베딩으로 동일 유전자 내 다양한 조절 요소를 구분.
  • 범용성: 사전 학습된 DNA·RNA 모델만 있으면 새로운 세포주·새로운 좌표에 바로 적용 가능.
  • 분포적 예측: deterministic regression이 아닌 latent diffusion을 사용해 교란 후 세포군의 이질성을 자연스럽게 모델링.

한계

  • 시퀀스 길이와 계산 비용: 524 kb 전체를 임베딩하는 과정이 메모리·시간적으로 무겁다. 실제 적용 시 좌표 주변(예: ±10 kb)만을 추출해도 충분할지 추가 연구가 필요.
  • 마스크 정의 의존성: 교란 마스크 m을 어떻게 설계하느냐에 따라 임베딩 품질이 달라질 수 있다(예: CRISPR‑Cas9 vs. base editing).
  • 데이터 희소성: 현재 실험은 3개의 세포주와 제한된 CRISPR 라이브러리만 사용했으며, 다양한 조직·발달 단계에 대한 검증이 남아 있다.

5. 향후 연구 방향

  1. 멀티‑모달 확장 – ATAC‑seq, Hi‑C 등 크로마틴 상태 정보를 DNA 임베딩에 통합해 교란 효과를 더 정교하게 모델링.
  2. 효율적인 서열 인코더 – Transformer‑based 모델(예: Enformer, DNABERT)과 슬라이딩 윈도우 전략을 결합해 메모리 사용량을 절감하면서도 장거리 상호작용을 포착.
  3. 베이지안 불확실성 추정 – diffusion 과정에 확률적 흐름을 도입해 교란 효과에 대한 신뢰 구간을 제공, 실험 설계에 직접 활용.
  4. 임상 적용 – 질병‑연관 변이(예: GWAS SNP) 주변 교란을 시뮬레이션해 표적 검증치료 후보 탐색에 활용.

**

📄 Content

예측이 어떻게 유전적 교란이 세포 상태를 변화시키는지를 예측하는 것은 유전자 조절의 제어 가능한 모델을 구축하는 핵심 문제이다 (Roohani et al., 2023; Lotfollahi et al., 2023b; Ahlmann‑Eltze et al., 2025; Adduri et al., 2025b; Park & Li, 2026; Lorch et al., 2026; Dong et al., 2026). 실제로 조절 효과는 프로모터, 인핸서, 대체 전사 시작점(TSS) 등 특정 DNA 서열에 의해 매개되며, 유전자를 불가분한 단위로 보는 것이 아니라 서열 단위로 이해해야 한다 (Nasser et al., 2021; Avsec et al., 2021; Linder et al., 2025; Pampari et al., 2025; Avsec et al., 2026). 그러나 현재 존재하는 대부분의 단일세포 교란 모델—최근의 단일세포 기반 모델까지 포함—은 교란을 유전자 수준에서 표현한다 (Cui et al., 2024; Wenkel et al., 2025; Passigan et al., 2025; Zhu & Li, 2025; Dong et al., 2026). 이때 교란은 이산적인 식별자 혹은 그래프의 정적인 노드로 취급된다. 결과적으로 같은 유전자 내의 서로 다른 유전체 위치를 표적로 하는 교란도 동일한 표현으로 매핑된다. 이는 해상도 격차를 만든다: CRISPR‑i/a, 베이스 편집과 같은 실험 기술은 정확한 유전체 위치에 개입할 수 있지만, 예측 모델은 유전자 전체를 하나의 동일한 교란으로 취급한다.


해상도 격차가 중요한 이유

같은 유전자 라벨을 공유하는 교란이라도 어떤 조절 서열을 표적으로 하는가에 따라 세포 결과가 크게 달라질 수 있다. 예를 들어, BCL11A 유전자의 코딩 영역을 파괴하면 세포가 사멸하지만, 특정 인핸서 서열만을 표적으로 하면 세포를 해치지 않으면서 치료 효과를 얻을 수 있다 (Smith et al., 2017; Frangoul et al., 2021). 하나의 인핸서 안에서도 실제로 유전자 조절을 담당하는 핵산은 극히 일부이며, 인접한 위치를 교란해도 측정 가능한 효과가 없을 때가 많다 (Canver et al., 2015). 이러한 관찰은 서열 수준 해상도에서 교란을 모델링해야 함을 시사한다. 또한 인간 게놈의 98 %는 단백질 코딩 영역 밖에 위치하는데, 여기에는 대부분의 질병 연관 변이가 존재한다. 그러나 현재의 유전자‑수준 교란 모델은 이 영역을 접근하지 못한다 (Maurano et al., 2012; Nasser et al., 2021).


서열‑레벨 교란 응답 모델링이 어려운 이유

  1. 입력 공간이 방대한다. 조절 효과는 수십만 개의 뉴클레오티드에 의존할 수 있으며, 원시 DNA 서열 → 전사체 변화라는 매핑은 매우 비선형이다 (Cheng et al., 2025; Fu et al., 2023). 최근 DNA 기반 기초 모델은 서열에서 일반적인 조절 문법을 학습하지만, 이들은 조절 신호를 예측하도록 훈련되었을 뿐 교란에 의한 상태 변화를 직접 예측하도록 설계되지 않았다. 따라서 교란 효과는 사후 분석을 통해 간접적으로 추론되며, 지역적인 서열 윈도우에만 국한되고 세포형 특이적 조절 프로그램을 통한 전파를 모델링하지 못한다 (Wei et al., 2025).

  2. 조절 효과는 맥락 의존적이다. 특정 서열 모티프의 영향은 크로마틴 상태, 장거리 상호작용, 세포 유형 등에 따라 달라진다 (Song et al., 2025). 이를 포착하려면 서열 수준 변화와 전사체(RNA) 응답을 세포 상태에 조건화해야 한다.

  3. 가능한 서열 교란 공간은 조합적으로 방대하지만, 현재 이용 가능한 단일세포 교란 데이터는 교란, 샘플, 맥락별로 매우 희소하다 (Peidli et al., 2024; Huang et al., 2025). 따라서 DNA 서열 → 교란 응답이라는 직접적인 지도 학습이 현실적으로 어렵다.


기존 교란 예측기의 한계

대부분의 기존 교란 예측기는 상류 조절 메커니즘을 모델링하지 않고 교란된 유전자를 나타내는 프록시 설명자에 조건화한다. 여기에는 이산형 공변량 (Bereket & Karaletsos, 2023; Tu et al., 2024; Gaudelet et al., 2024), 단백질 기능 (Adduri et al., 2025b; Dong et al., 2026), 유전자 조절 구조 (Wu et al., 2022; Roohani et al., 2023; Wenkel et al., 2025), 혹은 텍스트 기반 임베딩 (Wu et al., 2025; Zhu & Li, 2025) 등이 있다. DNA 및 게놈 언어 모델은 일반적인 서열 표현을 학습하지만, 교란에 의한 전사체 상태 변화를 직접 예측하도록 훈련되지 않았기 때문에 즉각적인 교란 예측기로 활용될 수 없다. 이러한 설계는 고정된 유전자 집합 내에서 보간은 가능하지만, **폐쇄된 교란 어휘(유전자 식별자)**에 제한된다. 새로운 교란에 대한 일반화는 유전자‑수준 상관관계를 전이하는 방식에 의존하는데, 이는 단순 베이스라인보다 큰 이득을 주지 못한다 (Wu et al., 2024). 더욱이, 유전자‑식별자 조건화는 동일 유전자 내의 서로 다른 위치에서 발생하는 교란을 표현할 수 없다 (Table 1).


본 연구

우리는 STRAND라는 생성 모델을 제안한다. STRAND는 교란 예측을 서열‑조건부 전송 문제로 공식화한다 (Figure 1). 모델은 교란되지 않은(대조) 세포 상태표적 유전체 위치의 DNA 서열을 입력으로 받아, 해당 위치에서 교란이 일어난 후의 세포 상태 분포를 예측한다. 기존의 “서열→발현” 모델이 제한된 서열 윈도우 내에서 미리 정의된 조절 트랙을 예측하는 것과 달리, STRAND는 전역 전사체 상태 변화를 DNA 서열과 연결한다. 교란을 유전자 식별자가 아닌 뉴클레오티드 서열의 연속 함수로 표현함으로써, 임의의 유전체 좌표에 대해 제로샷 예측이 가능하고, 동일 유전자 내의 서로 다른 조절 요소를 구분할 수 있다.

라벨이 된 교란 응답이 희소한 상황을 해결하기 위해, STRAND는 서열‑조건부 교란 모듈전송 기반 생성 모델을 결합한다. 교란 모듈은 DNA 서열 표현을 RNA 인코더의 잠재 공간에 매핑하여, 교란 임베딩을 생성한다. 이 임베딩은 잠재 확산 과정을 조건화하여 대조 세포 분포를 교란된 분포로 전송한다.

주요 기여

  • DNA‑RNA 잠재 공간 매핑: 목표 위치의 DNA 임베딩을 RNA 잠재 공간으로 변환함으로써, 조절‑맥락을 인식하는 교란 표현을 만든다. 이는 시퀀스 조건화를 사용하지 않은 베이스라인 대비 상위 차등 발현 유전자의 피어슨 상관계수를 0.08‑0.12 향상시킨다.
  • 시퀀스‑조건부 생성 전송: 교란 예측을 잠재 확산 기반 전송으로 정의함으로써, 결정론적 회귀보다 에너지 거리(Energy Distance)를 38.9 % 감소시키고, 다중 세포주 설정에서 평균 R²를 27.6 % 증가시킨다.
  • 유전체 전 범위 제로샷: 교란을 유전자 식별자가 아닌 서열 함수로 모델링함으로써, 보지 못한 위치에 대한 제로샷 추론과 위치‑해상도 인‑실리코 프로파일링이 가능해진다. 이는 유전자‑수준 모델이 커버하는 약 1.5 %에서 **전체 게놈의 약 95 %**까지 확장되며, 구분 점수를 최대 33 % 향상시키고, 보지 못한 유전자 벤치마크에서 최고 평균 순위를 기록한다. 또한, 보지 못한 세포주에 대한 전이 성능이 Δ피어슨 0.14까지 개선된다.

단일세포 교란 예측의 배경

초기 단일세포 교란 예측기는 교란 식별자 혹은 학습된 임베딩에 조건화하고, 대조 상태로부터 교란된 발현을 회귀한다. scGen, CPA, SAMS‑VAE와 같은 반사실적 방법은 교란을 대략적인 가법적 이동으로 모델링한다 (Lotfollahi et al., 2019; 2023a; Bereket & Karaletsos, 2023). 그래프‑및 관계‑인식 모델(예: graphVCI, GEARS, CellOracle, BioLord, PertAdapt)은 유전자‑유전자 혹은 조절 네트워크를 이용해 교란 공간에 구조를 부여한다 (Wu et al., 2022; Roohani et al., 2023; Kamimoto et al., 2023; Piran et al., 2024; Bai et al., 2025). 최근 “가상 세포” 모델인 TxPert, STATE, STACK은 예측 정확도를 높이고 CPA 등 기존 방법을 능가한다 (Adduri et al., 2025a; Wenkel et al., 2025; Dong et al., 2026). 그러나 벤치마크 결과는 모델 복잡도 증가가 교란 신호 회복을 개선하지 못한다는 것을 보여준다. 많은 방법이 의미 있는 효과를 학습하지 못하거나 모드 붕괴, 배치 효과 분리 실패 등을 겪는다 (Wu et al., 2024; Viñas Torné et al., 2025; Ahlmann‑Eltze et al., 2025; Luecken et al., 2021). 따라서 교란 모델링은 여전히 해결되지 않은 문제이며, 일반화에 초점을 맞춘 연구가 진행 중이다 (Wang et al., 2023; Tu et al., 2024). STRAND는 조절 DNA 맥락에 조건화함으로써 교란을 정적 식별자가 아닌 구조화된 변환으로 다룬다.


DNA 서열 모델과의 차이점

DNA 기초 모델은 조절 트랙(크로마틴 접근성, 전사인자 결합, 발현 등)을 예측하도록 훈련되며, 서열‑대‑기능 예측기이다 (Avsec et al., 2021; Lal et al., 2024; Garau‑Luis et al., 2024; Linder et al., 2025; Avsec et al., 2026). 이들을 교란‑응답 예측에 바로

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키