그래프 공동주의를 활용한 약물 상호작용 부작용 예측
초록
본 논문은 약물의 분자 그래프 구조만을 이용해 약물‑약물 상호작용(DDI)으로 발생할 수 있는 부작용을 예측하는 새로운 신경망 모델을 제안한다. 메시지 패싱 기반 그래프 컨볼루션에 두 약물 사이의 공동주의(co‑attention) 메커니즘을 결합함으로써, 약물 쌍의 조인트 표현을 초기 단계부터 학습한다. 4.5 백만 건의 대규모 DDI 데이터(TWOSIDES)에서 바이너리 및 멀티라벨 분류 모두 기존 최첨단 모델(Decagon 등)을 능가하는 성능을 보였으며, 단순히 화학 구조만으로도 높은 예측력을 입증한다.
상세 분석
이 연구는 약물‑약물 상호작용(DDI) 부작용 예측을 위해 그래프 신경망(GNN)과 트랜스포머식 공동주의(co‑attention)를 결합한 새로운 아키텍처를 설계하였다. 입력으로는 각 약물을 원자와 결합을 노드·엣지로 표현한 그래프와, 964개의 부작용을 원‑핫 인코딩한 벡터를 사용한다. 기존 GNN은 각 약물 내부에서 메시지 패싱을 통해 원자 특징을 업데이트하는데, 여기서 저자들은 메시지 전파 단계와 동시에 두 약물 사이의 원자‑원자 상호작용을 공동주의를 통해 계산한다. 구체적으로, 약물 x의 원자 i와 약물 y의 원자 j 사이의 유사도는 선형 변환 후 내적을 취하고 소프트맥스를 적용해 αᵗᵢⱼ를 얻는다. 이 가중치는 약물 y의 모든 원자 특징을 약물 x의 원자 i에 전달하는 외부 메시지 nᵗᵢ를 생성한다. 다중 헤드(K=8)를 사용해 다양한 관계 수준을 포착하고, 내부 메시지(mᵗᵢ)와 외부 메시지(nᵗᵢ)를 합산 후 레이어 정규화와 스킵 연결을 적용해 다음 단계 특징 hᵗᵢ를 얻는다. 이러한 과정을 T=3번 반복함으로써, 약물 쌍 전체에 대한 조인트 표현이 초기부터 형성된다.
읽기 단계에서는 각 약물의 원자 특징을 MLP로 변환한 뒤 합산해 고정 길이의 약물 벡터 dₓ, dᵧ를 만든다. 바이너리 분류에서는 부작용 벡터 s_z를 입력받아 두 약물 벡터와 s_z 사이의 L2 거리 기반 스코어 f(dₓ,dᵧ,s_z)를 계산하고, 마진 기반 랭킹 손실을 최적화한다. 멀티라벨 분류에서는 두 약물 벡터를 연결(concatenate)하고 선형 변환 후 시그모이드 함수를 적용해 964개의 부작용 각각에 대한 확률을 출력한다. 손실은 이진 교차 엔트로피이다.
실험은 Decagon과 Multitask Dyadic Prediction을 주요 베이스라인으로 삼아, 동일한 TWOSIDES 데이터(4.5 M 쌍, 최소 500번 등장하는 964 부작용)에서 평가하였다. 결과는 AUROC, AUPRC 모두에서 기존 모델을 상회했으며, 특히 공동주의를 제거한 Ablation 실험에서 성능 저하가 크게 나타나, 조인트 표현 학습이 핵심임을 입증한다. 또한, 단순 화학 구조만으로도 높은 예측력을 보였으며, 단백질‑타깃 정보가 없는 상황에서도 Decagon에 근접하거나 능가하는 결과를 얻었다.
한계점으로는 그래프 크기가 큰 약물(수백 원자)에서 메모리·연산 비용이 증가한다는 점과, 부작용 라벨이 불완전하거나 보고 편향이 존재할 경우 모델이 과적합될 위험이 있다. 향후 연구에서는 효율적인 서브그래프 샘플링, 멀티모달 데이터(예: 전사체, 임상 기록) 통합, 그리고 라벨 노이즈에 강인한 학습 기법을 도입해 실용성을 높일 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기