멀티뷰 바이오메디컬 파운데이션 모델 MMELON: 그래프·이미지·텍스트 융합으로 분자·타깃 예측 혁신
초록
MMELON은 그래프, 2D 이미지, 텍스트(SMILES) 세 가지 분자 표현을 각각 2억 개 규모의 데이터로 사전학습하고, 가중치가 학습되는 라이트-퓨전 어그리게이터로 결합한다. 120여 개의 베치마크와 알츠하이머 관련 GPCR 타깃 탐색에서 단일 뷰 모델을 능가하거나 동등한 성능을 보이며, 구조 기반 모델링을 통해 강력한 결합제 후보를 검증한다.
상세 분석
MMELON은 기존 단일표현 기반 파운데이션 모델의 한계를 인식하고, “뷰(view)”라는 개념을 도입해 세 가지 상보적인 분자 표현을 동시에 활용한다. 이미지 뷰는 ImageMol의 CNN 기반 모델을 1천만 개 PubChem 화합물 이미지에 사전학습시킨 것이며, 텍스트 뷰는 MolFormer와 동일한 트랜스포머 아키텍처를 SMILES 시퀀스에 적용해 2억 개 분자(PubChem + ZINC22)에서 마스크 토큰, 결합 예측, 베티수 예측이라는 세 가지 자기지도 학습 과제를 수행한다. 그래프 뷰는 TokenGT를 변형한 그래프‑트랜스포머로, 화학 결합과 원자 특성을 토큰화해 동일 데이터셋에서 학습한다.
세 뷰는 각각 독립적으로 인코더를 학습한 뒤, 라이트‑퓨전 어그리게이터에 입력된다. 어그리게이터는 각 뷰 임베딩 zₘ에 가중치 αₘ을 곱해 선형 결합하고, 이후 다층 퍼셉트론으로 최종 임베딩을 생성한다. αₘ는 미세조정 과정에서 자동으로 최적화되므로, 특정 다운스트림 태스크에 어느 뷰가 기여하는지 직관적으로 해석 가능하다. 이는 기존의 복합 모델이 “블랙박스”로 남는 문제를 완화한다.
사전학습된 임베딩의 품질을 검증하기 위해 10만 개 샘플에 대해 유클리드 거리와 전통적인 핑거프린트(Morgan, Atom‑Pair, MACCS, 토션) 간의 상관관계를 분석했다. 텍스트와 그래프 임베딩은 상관계수 ≈ 0.7로 높은 유사성을 보였으며, 이미지 임베딩은 상대적으로 독립적인 정보를 제공한다. 또한, 이미지 임베딩은 MACCS와 가장 높은 상관을 보여, 이미지‑CNN이 특정 서브스트럭처를 잘 포착함을 시사한다.
벤치마크 평가는 MoleculeNet, CYP450 억제, ComputationalADME 등 21개의 회귀·분류 과제를 포함한다. 단일 뷰 중 그래프 모델이 전반적으로 가장 높은 ROC‑AUC와 낮은 RMSE를 기록했지만, MMELON은 모든 태스크에서 최고 단일 뷰와 동등하거나 약간 상회하는 성능을 유지했다. 특히, 이미지 뷰가 크게 기여하는 태스크(예: 물리‑화학적 용해도)와 텍스트 뷰가 유리한 태스크(예: SMILES 기반 독성 예측)에서 αₘ 값이 상승하는 현상이 관찰되었다.
알츠하이머와 연관된 33개의 GPCR을 선정하고, 장내 미생물 대사산물·FDA 승인 약물 라이브러리에서 강력한 결합 후보를 스크리닝했다. MMELON이 제시한 상위 후보는 구조 기반 도킹 및 포스포레시스 분석을 통해 핵심 결합 모티프와 일치했으며, 기존 단일 뷰 모델보다 높은 결합 친화도를 예측했다.
이 연구의 주요 강점은 (1) 대규모(200M) 데이터셋을 활용한 세 뷰 사전학습, (2) 라이트‑퓨전으로 뷰 간 상호작용을 명시적으로 모델링, (3) 가중치 해석을 통한 태스크별 뷰 중요도 파악, (4) 실제 약물 타깃 탐색에 적용 가능한 실증적 검증이다. 한편, 제한점으로는 (①) 현재 2D 이미지와 2D 그래프에 국한돼 3D 구조 정보를 직접 활용하지 못함, (②) 어그리게이터가 선형 결합에 머물러 복잡한 비선형 상호작용을 충분히 포착하지 못할 가능성, (③) 사전학습 데이터에 존재하는 화학적 편향이 특정 도메인에 전이될 위험이 있다. 향후 3D 좌표 기반 뷰와 멀티‑모달 프로테인‑리간드 표현을 추가하고, 어그리게이터에 트랜스포머식 교차‑어텐션을 도입한다면 더욱 풍부한 통합 표현을 기대할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기