다중오믹스와 약물 그래프를 결합한 듀얼 트랜스포머 모델 DeepDTF
초록
DeepDTF는 세포주 다중오믹스 데이터와 약물의 분자 그래프를 각각 전용 인코더로 처리한 뒤, 트랜스포머 기반 융합 모듈로 교차 모달 상호작용을 학습한다. 회귀와 이진 분류를 동시에 수행하며, 5‑fold 냉시작(cell‑line) 평가에서 RMSE 1.248, R² 0.875, AUC 0.987 등 기존 최고 성능을 능가한다. SHAP과 GSEA를 활용한 해석 가능성도 제공한다.
상세 분석
DeepDTF는 암 세포주의 복합적인 분자 특성을 반영하기 위해 6가지 오믹스(전사, 돌연변이, 복제수 변이, 단백질 발현, 단백질 차이, DNA 메틸화)를 별도의 모듈로 입력한다. 각 오믹스는 CNN‑Attention 토크나이저를 거쳐 고정 길이 토큰 시퀀스로 변환되고, 이후 표준 트랜스포머 인코더를 통해 장거리 의존성을 학습한다. 약물 측면에서는 SMILES 문자열을 RDKit으로 그래프화하고, 노드와 엣지에 9‑차원, 3‑차원 카테고리 피처를 부여한다. GNN‑MessagePassing 레이어(Layer 수는 논문에 명시되지 않았지만 일반적으로 3~5층)로 지역 구조를 캡처한 뒤, 다시 트랜스포머 인코더를 적용해 전역 서브스트럭처 간 상호작용을 모델링한다.
두 브랜치에서 얻은 토큰 집합을 단순 연결(concatenation)한 뒤, Fusion‑Transformer에 입력한다. 이 단계에서 자기‑주의(self‑attention)가 전체 토큰에 걸쳐 계산되어 약물의 특정 서브스트럭처와 세포주의 특정 오믹스 패턴을 동적으로 정렬한다. 이렇게 얻어진 공동 표현 z는 평균 풀링(pooling)으로 압축되어 두 개의 헤드에 전달된다. 하나는 MSE 기반 로그(IC50) 회귀, 다른 하나는 focal loss 기반 민감도(민감/저항) 이진 분류를 수행한다. 다중 과제 손실 L = αL_reg + βL_FL + λ‖Θ‖² 로 최적화되며, α와 β는 각각 회귀와 분류의 중요도를 조절한다.
실험에서는 GDSC2와 CCLP 데이터를 통합해 782개의 세포주, 256개의 약물, 총 164 165개의 약물‑세포주 쌍을 구축하였다. 5‑fold 교차 검증에서 냉시작(cell‑line) 설정을 사용해 기존 모델(CDRscan, tCNN, DeepCDR, DeepTTA, GraTransDRP)과 비교했으며, 모든 지표에서 일관되게 우수한 성능을 기록했다. 특히 다중오믹스를 모두 활용했을 때 RMSE 1.248, R² 0.875, AUC 0.987을 달성했고, 분류 정확도(ACC)와 민감도(SEN)에서도 9.5% 이상의 절대 향상을 보였다.
해석 가능성 측면에서는 SHAP을 이용해 각 유전자에 대한 기여도를 계산하고, 이를 사전 순위화된 GSEA에 입력해 경로 수준의 풍부성을 평가했다. 결과적으로 모델이 높은 기여도를 부여한 유전자 집합이 알려진 암 관련 신호전달 경로와 일치함을 확인함으로써, 단순 예측을 넘어 생물학적 인사이트를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기