분자 독성 복구를 위한 MLLM 벤치마크 ToxiMol 발표
초록
본 논문은 독성 물질을 저독성 대안으로 변환하는 “분자 독성 복구” 작업을 정의하고, 이를 평가하기 위한 최초의 멀티모달 대형 언어 모델(MLLM) 벤치마크인 ToxiMol을 제시한다. 11개의 주요 독성 과제와 660개의 독성 분자를 포함한 데이터셋을 구축하고, 메커니즘‑인식 프롬프트 파이프라인과 다중 기준 자동 평가 프레임워크(ToxiEval)를 설계하였다. 43개의 최신 MLLM을 실험한 결과, 현재 모델들은 낮은 성공률에도 불구하고 독성 이해와 구조 편집 능력에서 초기 가능성을 보였다.
상세 분석
ToxiMol은 기존 독성 예측·ADMET 최적화와 달리 “독성 제거”라는 구체적 목표를 가진 구조 수준의 생성 과제를 제공한다. 데이터 구축 단계에서 저자들은 TDC 플랫폼의 11개 독성 라벨(AMES, hERG, Tox21 등)을 선택하고, 각 라벨당 60개의 샘플을 균등하게 추출하였다. 이는 ECFP4 기반 토피오 유사도와 Butina 클러스터링을 이용해 구조적 다양성을 보장한 뒤, UMAP 시각화로 커버리지를 검증한 절차이다.
프롬프트 설계는 세 단계(기본 템플릿, 작업·서브태스크 삽입, 분자‑이미지 결합)로 이루어져, 독성 메커니즘과 구조 제약을 명시적으로 모델에 전달한다. 이렇게 생성된 멀티모달 입력은 SMILES, 2D RDKit 이미지, 그리고 자연어 설명을 포함한다.
평가 프레임워크 ToxiEval은 (1) 독성 엔드포인트 예측, (2) 합성 가능성(SA), (3) 약물성(Drug‑likeness), (4) 원본과의 구조 유사도(Tanimoto) 네 가지 지표를 종합한다. 각 후보가 네 지표 모두 사전 정의된 임계값을 만족하면 성공으로 간주한다.
실험에서는 43개의 공개·폐쇄형 MLLM을 대상으로 3개의 후보를 생성하도록 했으며, 전체 성공률은 08% 수준에 그쳤다. 특히 hERG·DILI와 같은 저성능 과제에서는 2% 이하, AMES·ClinTox 등에서는 68%까지 차이가 있었다. Ablation 연구에서는(1) 후보 수 증가가 성공률을 약 1.5배 향상시키지만 다중성능 충돌을 야기함, (2) 메커니즘‑특화 프롬프트가 일반 템플릿 대비 12%p 상승, (3) 평가 기준 가중치 변화가 성공률 변동에 민감함을 확인했다. 오류 분석 결과, 구조 무결성 위반(잘못된 SMILES)과 독성 예측 모델의 오판이 주요 실패 원인으로 지목되었다.
이러한 결과는 현재 MLLM이 화학 구조 인식·텍스트 이해는 가능하지만, 정밀한 독성 제거와 합성 가능성 고려까지는 아직 미흡함을 시사한다. 향후 연구는(1) 독성‑특화 사전학습, (2) 화학 반응·합성 경로 모델링 통합, (3) 인간‑인공지능 협업을 통한 피드백 루프 구축 등을 통해 성능을 크게 끌어올릴 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기