단일세포 전사체와 머신러닝을 이용한 제2형 당뇨병 유전자 연관성 예측
초록
본 연구는 마우스 이소렛 아틀라스에서 추출한 β‑세포 단일세포 RNA‑Seq 데이터를 활용해, Extra Trees Classifier와 Partial Least Squares Discriminant Analysis 두 가지 지도학습 모델을 구축·평가한다. 데이터 전처리·배치 보정·고변이 유전자 선택 후 교차검증으로 정확도·정밀도·재현율·F1·AUC 등을 측정하고, 모델 해석성을 통해 T2D와 연관된 핵심 유전자를 도출한다.
상세 분석
이 논문은 고차원·고노이즈 특성을 가진 단일세포 전사체 데이터를 머신러닝에 적용하는 전형적인 파이프라인을 제시한다. 먼저 Mouse Islet Atlas(MIA)에서 db/db 및 mSTZ 모델의 β‑세포만을 추출하고, Scanpy와 AnnData를 이용해 세포·유전자 필터링, 정규화, 로그 변환, 고변이 유전자(HVG) 선택을 수행한다. 배치 효과는 Harmony 혹은 BBKNN과 같은 통합 기법으로 최소화했으며, 클래스 불균형을 해결하기 위해 SMOTE와 언더샘플링을 병행한 리샘플링 전략을 적용하였다.
두 모델 선택은 각각의 장점을 극대화하기 위한 것이다. Extra Trees Classifier(ETC)는 랜덤 포레스트 기반의 앙상블 방법으로, 다수의 결정트리를 무작위 특성 샘플링과 부트스트랩 샘플링을 통해 학습한다. 이 과정에서 각 유전자의 중요도(feature importance)를 직접 추출할 수 있어, 생물학적 해석이 용이하다. 반면 PLS‑DA는 고차원 데이터에서 변수와 반응 변수 간의 공분산을 최대화하는 잠재공간을 구축함으로써 차원 축소와 분류를 동시에 수행한다. 특히 다중공선성이 심한 전사체 데이터에 강인하며, 잠재 변수의 로딩값을 통해 어떤 유전자 군이 질병 구분에 기여하는지 직관적으로 파악할 수 있다.
모델 평가는 5‑fold 교차검증을 기반으로 정확도, 정밀도, 재현율, F1‑score, ROC‑AUC를 보고한다. 결과적으로 두 모델 모두 80 % 이상(정확도 기준)의 성능을 보였으며, ETC는 변수 중요도 기반 상위 20개 유전자를, PLS‑DA는 잠재 변수 로딩을 통해 도출된 15개 유전자를 주요 바이오마커로 제시한다. 도출된 유전자들은 기존 문헌에서 β‑세포 스트레스, 탈분화, 인슐린 분비 조절에 관여하는 것으로 알려진 유전자와 겹치며, 신규 후보 유전자도 발견한다.
한계점으로는 단일 마우스 모델에 국한된 데이터와, 인간 β‑세포와의 직접적인 교차검증 부재를 들 수 있다. 또한, ETC와 PLS‑DA 외에 딥러닝 기반 모델(예: AutoEncoder‑ 기반 클러스터링)이나 그래프 신경망을 적용하면 더욱 복합적인 상호작용을 포착할 가능성이 있다. 향후 연구에서는 인간 단일세포 데이터와 멀티오믹스(에피제네틱, 메타볼로믹) 정보를 통합하고, 모델 설명성을 강화하기 위해 SHAP값이나 LIME과 같은 포스트‑hoc 해석 기법을 도입하는 것이 바람직하다.
댓글 및 학술 토론
Loading comments...
의견 남기기