결손 모달리티를 고려한 NSCLC 생존 예측을 위한 대조 변분 오토인코더
초록
본 논문은 폐암(NSCLC) 환자의 생존 예측을 위해 조직 슬라이드 이미지, 전사체 데이터, DNA 메틸화 정보를 통합하는 멀티모달 모델을 제안한다. 기존 방법은 모달리티가 누락된 경우 성능 저하가 심했으나, 제안된 MCVAE는 각 모달리티별 변분 인코더와 가용성‑인식 게이팅을 통해 불확실성을 정량화하고, 가용한 모달리티만을 이용해 안정적인 공통 잠재 표현을 학습한다. 생존 손실, 재구성 손실, KL 발산, 그리고 교차‑모달 대조 손실을 결합한 다중 과제 목표와 확률적 모달리티 마스킹을 통해 심각한 결손 상황에서도 높은 예측 정확도를 유지한다. TCGA‑LUAD와 TCGA‑LUSC 데이터셋 실험에서 기존 최첨단 모델을 능가함을 보였다.
상세 분석
본 연구는 멀티모달 데이터가 부분적으로만 존재하는 현실적인 임상 상황을 직접 모델링한다는 점에서 의미가 크다. 먼저 각 모달리티(임상, 전사체, 조직 슬라이드 이미지, DNA 메틸화)에 대해 변분 인코더를 두어 평균 µ와 분산 σ²를 추정한다. 이는 해당 모달리티의 정보가 얼마나 신뢰할 수 있는지를 확률적 형태로 표현한다는 점에서 기존 deterministic 임베딩과 차별된다. 결손 모달리티에 대해서는 zₖ를 0으로 설정하고, 가용성 aₖ를 곱한 뒤, 학습 가능한 게이트 파라미터 γₖ를 시그모이드 함수를 통해 0‑1 범위로 정규화한다. 이렇게 얻어진 가중치 σ(γₖ)는 단순 존재/부재 이진 마스크가 아니라 각 모달리티의 상대적 중요도를 학습한다는 점에서 MUSE와 같은 기존 그래프 기반 접근법보다 유연하다.
다음으로, 가용한 모달리티들의 변분 샘플 zₖ를 가중 평균하고, 이를 추가적인 fusion 네트워크 h(·)에 통과시켜 공통 잠재 표현 z_fused를 만든다. 이 과정에서 정규화 상수 C는 현재 사용 가능한 모달리티 수에 따라 스케일을 맞추어, 1개만 남아도 과도한 값이 나오지 않도록 설계되었다.
학습 목표는 네 가지 손실을 선형 결합한 다중 과제 형태다. (1) Cox 부분가능도 기반 생존 손실 L_task은 환자별 위험 비율을 직접 최적화한다. (2) 재구성 손실 L_recon은 각 가용 모달리티를 디코더 g_ψₖ를 통해 복원하도록 하여, 공통 잠재 공간이 개별 모달리티 정보를 충분히 보존하도록 강제한다. (3) KL 발산 L_KL은 변분 분포와 표준 정규 prior 사이의 차이를 최소화하되, 모달리티별 가중치 wₖ를 학습시켜 신뢰도가 낮은 데이터에 과도한 정규화를 방지한다. (4) 교차‑모달 대조 손실 L_contrast는 InfoNCE 형태로, 같은 환자의 서로 다른 모달리티 임베딩을 긍정 쌍으로, 다른 환자의 임베딩을 부정 쌍으로 삼아 잠재 공간에서 환자 간 구분성을 높인다.
또한, 학습 중에 확률적 모달리티 마스킹을 적용해 임의로 일부 모달리티를 숨김으로써 모델이 “모달리티가 사라져도” 견고하게 동작하도록 만든 점이 주목할 만하다. 이는 모달리티 드롭아웃과 전통적인 임퓨테이션을 절충한 하이브리드 전략으로, 완전한 데이터가 부족한 상황에서도 일반화 성능을 유지한다.
실험에서는 TCGA‑LUAD(475명)와 TCGA‑LUSC(446명) 코호트를 사용해 disease‑specific survival (DSS) 예측을 평가하였다. 결손 비율을 0%부터 80%까지 단계적으로 증가시켰을 때, 제안 모델은 기존 MUSE와 SMIL 대비 C‑index 감소폭이 현저히 작았다. 특히, 80% 이상의 모달리티가 결손된 경우에도 C‑index가 0.68 수준을 유지해, 실제 임상에서 데이터가 불완전한 경우에도 활용 가능함을 입증했다.
마지막으로, 모든 모달리티 조합에 대한 ablation 실험을 수행했는데, 일부 경우(예: 전사체와 메틸화만 결합)에는 단일 모달리티보다 성능이 낮았다. 이는 “모든 모달리티를 무조건 결합하면 좋다”는 일반적 가정이 항상 성립하지 않으며, 각 모달리티 간 상관관계와 데이터 품질을 고려한 선택적 통합이 필요함을 시사한다.
요약하면, MCVAE는 변분 인코딩, 가용성‑인식 게이팅, 다중 손실 통합, 그리고 확률적 마스킹을 통해 결손 모달리티 환경에서도 강인한 생존 예측 모델을 제공한다는 점에서 멀티오믹스 기반 정밀 의학 연구에 중요한 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기