다중모달 융합으로 합성필연성 예측을 혁신한 SynLeaF

본 논문은 합성필연성(Synthetic Lethality, SL) 예측을 위한 새로운 멀티모달 융합 프레임워크인 SynLeaF를 제안한다. SL은 두 유전자의 결함이 동시에 발생할 때 세포 사멸을 유도하는 현상으로, 암 치료 표적 발굴에 핵심적인 역할을 한다. 기존의 SL 예측 방법은 통계, 네트워크 기반, 전통 머신러닝, 딥러닝 등으로 구분되지만, 이질적인 오믹스 데이터와 생물학적 지식그래프(KG)를 효과적으로 결합하지 못하거나, ‘모달리티 레이저니스(modality laziness)’라 불리는 학습 불균형 문제로 인해 판암(pan‑cancer)과 개별 암 유형 모두에서 일관된 성능을 내지 못한다는 한계가 있었다. SynLeaF는 이러한 문제를 해결하기 위해 두 단계의 멀티모달 학습 전략을 설계하였다. 1) **오믹스 교차 인코더**: 변분 오토인코더(VAE)를 기반으로 N × N 인코더 행렬을 구성한다. 대각선 요소는 각 모달리티(유전자 발현, 돌연변이, DNA 메틸화, 복제수 변이)의 자체 복원(auto‑encoder) 역할을 하며, 비대각선 요소는 모달리티 간 상호 추론(cross‑encoder) 역할을 수행한다. 이 구조는 개별 특성 학습과 모달리티 간 상호 보완 정보를 동시에 최적화한다. 또한 Product‑of‑Experts(PoE) 메커니즘을 적용해 각 모달리티의 잠재 분포를 곱해 하나의 통합 잠재 표현을 만든다. PoE는 결측 모달리티가 존재할 때도 다른 모달리티의 정보를 활용해 결측값을 복원하도록 설계돼, 실제 임상 데이터의 불완전성을 효과적으로 다룰 수 있다. 2) **지식그래프 인코더**: 생물학적 KG는 유전자, 경로, 질병 등 다양한 엔티티와 관계를 포함한다. SynLeaF는 관계형 그래프 컨볼루션 네트워크(RGCN)를 사용해 각 유전자의 구조적 임베딩을 추출한다. RGCN은 관계 타입별 가중치를 학습함으로써 이종 관계를 정밀하게 모델링한다. 3) **Dual‑Stage 학습 메커니즘**: ‘모달리티 레이저니스’를 완화하기 위해 두 단계 학습을 도입한다. - **첫 단계(단일모달 사전 학습)**: 오믹스 인코더와 KG 인코더를 각각 독립적으로 학습시켜 각 모달리티가 충분히 표현력을 확보하도록 한다. - **두 번째 단계(멀티모달 통합 학습)**: 두 가지 보조 전략을 병행한다. * **Uni‑Modal Teacher (UMT)**: 사전 학습된 단일모달 인코더를 교사 모델로 삼아 멀티모달 학생 모델에 특성‑수준 지식 증류(feature‑level knowledge distillation)를 수행한다. KL‑발산 손실을 통해 학생의 잠재 분포를 교사의 분포에 맞추어 모달리티 간 불균형을 보정한다. * **Uni‑Modal Ensemble (UME)**: 두 단일모달 모델의 예측 확률(p_o, p_k)을 직접 앙상블한다. 간단히 평균하거나 가중합해 최종 예측을 만든다. 두 전략 중 어느 것이 더 효과적인지는 검증 데이터의 AUC를 기준으로 자동 선택한다. 일반적으로 두 모달리티 모두 강력한 특성을 보일 때는 UMT가, 한 모달리티가 현저히 우세하거나 교차 정보가 노이즈를 유발할 경우 UME가 더 좋은 성능을 보인다. **실험 및 평가** - **데이터**: 8개 암 유형(BRCA, CESC, COAD, KIRC, LAML, LUAD, OV, SKCM)과 판암 데이터셋을 사용했으며, 각각 CV1(무작위 분할), CV2(반신규 유전자 분할), CV3(완전 신규 유전자 분할) 세 가지 스플릿을 적용했다. - **비교 모델**: 최신 SL 예측 모델인 SLGNN, ELISL, PTGNN, MP‑ASL을 선정했으며, 모든 모델이 동일한 전처리 파이프라인과 동일한 학습/평가 환경에서 실행되도록 통일하였다. - **성능**: 19개 실험 시나리오 중 17개에서 SynLeaF가 최고 성능을 기록했다. 특히 SKCM 데이터에서는 CV1에서 AUC가 기존 최고 모델 대비 17.71% 상승했으며, CV2에서도 6.89% 향상을 보였다. 전반적으로 AUC와 AUPR 모두 기존 모델을 크게 앞섰다. **Ablation Study** - PoE 교차 인코더 제거 → 성능 3~5% 감소 - RGCN 제거 → 구조적 정보 손실로 AUC 4~6% 감소 - UMT만 사용 / UME만 사용 → 각각 특정 데이터셋에서 성능 편차 발생, 두 전략을 자동 선택하는 것이 전반적 안정성 확보에 기여 - 지식 증류 손실 가중치 0으로 설정 → 학생 모델이 교사의 정보를 충분히 반영하지 못해 AUC 2~3% 감소 **Gradient 분석** Gradient 흐름을 시각화해 각 모달리티가 학습에 기여하는 정도를 확인했다. UMT 상황에서는 교차 모달리티 간 상호작용이 활성화돼, 특히 메틸화와 CNV가 발현 데이터와 상호 보완적으로 작용한다는 점을 확인했다. 반면 UME 상황에서는 특정 모달리티(예: 돌연변이)의 기여도가 과도하게 높아지는 경향이 있었으며, 이는 앙상블이 과적합을 방지하는 역할을 함을 시사한다. **시스템 및 활용** SynLeaF는 웹 서버(https://synleaf.bioinformatics‑lilab.cn)를 제공한다. 사용자는 유전자 발현, 돌연변이, 메틸화, CNV 데이터를 업로드하고, 원하는 암 유형을 선택해 SL 쌍을 예측할 수 있다. 또한 새로운 KG를 추가하거나 모델을 재학습하는 기능도 지원한다. **결론 및 전망** SynLeaF는 변분 오토인코더 기반 교차 인코더와 PoE 융합, RGCN 기반 KG 인코딩, 그리고 Dual‑Stage 학습 전략을 결합해 ‘모달리티 레이저니스’를 효과적으로 완화하고, 판암 및 개별 암 유형 모두에서 뛰어난 예측 성능을 달성했다. 향후 연구에서는 더 다양한 오믹스(예: 단백질 상호작용, 대사체)와 임상 치료 반응 데이터를 통합해 치료제 타깃 발굴에 직접 연결하는 방향으로 확장할 계획이다.

다중모달 융합으로 합성필연성 예측을 혁신한 SynLeaF

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기