Perturbseq에서 숨은 교란에 강인한 인과 네트워크 추정
초록
본 논문은 CRISPR 기반 Perturb‑seq 데이터를 이용해, 관측되지 않은 교란 변수들에 대해 강인한 인과 유전자 네트워크(DAG)를 복원하는 새로운 통계 프레임워크 ARGEN을 제안한다. 가이드 RNA를 도구 변수(instrumental variable)로, 숨은 유전자 발현을 프록시 변수로 활용해 구조 방정식 모델(SEM)을 구축하고, 후손 집합과 부모 집합을 순차적으로 추정한다. 시뮬레이션 및 K562 세포 실험을 통해 기존 방법보다 교란에 대한 편향을 크게 감소시키고, 실제 생물학적 의미가 높은 네트워크를 회복함을 보인다.
상세 분석
ARGOEN은 Perturb‑seq 실험의 고유한 설계를 활용해 두 가지 핵심 아이디어를 결합한다. 첫째, gRNA 결합 여부를 도구 변수(instrumental variable, IV)로 사용한다. gRNA는 무작위로 세포에 도입되며, 기술적 공변량(시퀀싱 깊이, 배치 효과)과는 독립적인 특성을 가진다. 따라서 IV는 교란 변수와 무관하게 목표 유전자의 발현에 직접적인 인과 효과를 전달한다는 가정을 만족한다. 둘째, 관측되지 않은 생물학적 교란(예: 세포 주기, 염색질 접근성)을 프록시 변수로 대체한다. 구체적으로, 동일한 gRNA에 의해 교란된 여러 유전자의 발현을 결합해 교란을 추정하고, 이를 SEM의 오차항에 포함시켜 교란에 대한 강인성을 확보한다.
모델링 단계에서는 기존 scRNA‑seq 측정 모델을 확장해, 로그 변환된 진짜 발현 μ와 관측된 UMI 카운트 Y 사이를 포아송 혹은 음이항 분포로 연결한다. 여기에 각 유전자 i에 대한 구조 방정식
log μ_i = ∑{j∈Pa(i)} f{ij}(μ_j) + β_i D_i + γ_i X + ε_i
를 도입한다. 여기서 D_i는 해당 유전자를 타깃으로 한 gRNA 지시자, X는 기술적 공변량, ε_i는 숨은 교란이다.
식별 가능성(identifiability) 분석은 세 가지 주요 정리를 제시한다. 정리 1은 비퇴화 직접 효과(non‑degenerate direct effect) 가정 하에 모든 유전자의 조상·후손 집합을 식별할 수 있음을 보인다. 정리 2는 독점 경로(exclusive directed path) 개념을 도입해, 두 노드 사이에 유일한 인과 경로가 존재할 경우 그 경로상의 파라미터가 식별 가능함을 증명한다. 정리 3은 프록시와 IV를 결합한 quasi‑maximum likelihood estimation(QMLE) 형태의 추정식을 통해, 교란이 존재하더라도 각 유전자의 부모 집합을 정확히 복원할 수 있음을 보여준다.
알고리즘은 크게 두 단계로 구성된다. 첫 단계에서는 각 유전자의 후손 집합을 조건부 평균 검정(식 4)으로 추정하고, 이를 기반으로 Algorithm 1에 입력한다. 두 번째 단계에서는 프록시 변수 η_i를 구성하고, QMLE를 풀어 β̂_i와 θ̂_{ij}를 얻은 뒤, 온라인 FDR 제어(Zrnic et al., 2020)를 적용해 통계적 유의성을 판단한다. 이 과정에서 acyclicity 제약을 만족하도록 부모 집합을 순차적으로 확정한다.
시뮬레이션에서는 교란 강도와 샘플 크기를 다양하게 변형해, 기존 PC, GES, NOTEARS 등과 비교했을 때 구조 Hamming distance와 AUC가 현저히 개선됨을 보고한다. 실제 K562 Perturb‑seq 데이터(수천 개 세포, 100여 개 타깃 유전자)에서는 ARGEN이 알려진 전사인자‑표적 관계를 높은 재현율로 회복하고, 새로운 후보 관계를 제시한다. 특히, 교란을 무시한 방법이 과도한 엣지를 추가하거나 중요한 엣지를 놓치는 반면, ARGEN은 교란을 보정함으로써 생물학적 해석 가능성을 크게 높인다.
한계점으로는 (1) 프록시 변수 구축에 필요한 충분한 gRNA‑targeted 유전자 수가 부족할 경우 식별력이 약해질 수 있으며, (2) 비선형 관계를 완전히 포착하기 위해서는 더 복잡한 함수 형태 f_{ij}를 도입해야 하는데, 현재 구현은 주로 선형 또는 로그‑선형 형태에 국한된다. 향후 연구에서는 다중‑도구 변수와 비선형 SEM을 결합한 확장, 그리고 교란 구조를 베이지안 방식으로 추정하는 방법을 탐색할 예정이다.
댓글 및 학술 토론
Loading comments...
의견 남기기