딥모름: 고해상도 분자 이미지와 3D 구조 정보를 결합한 차세대 분자‑텍스트 모델

딥모름: 고해상도 분자 이미지와 3D 구조 정보를 결합한 차세대 분자‑텍스트 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeepMoLM은 1024×1024 고해상도 분자 그림을 시각적 스트림으로, 그리고 E3FP 기반 3D 지오메트리 토큰을 구조적 스트림으로 처리한다. 두 스트림을 교차‑어텐션으로 융합해 물리적으로 일관된 캡션·속성 예측을 수행한다. PubChem 캡션에서 METEOR 점수를 12.3 % 향상시키고, 분자량·복잡도 예측에서도 MAE 13.64 g/mol·37.89를 달성했다.

상세 분석

DeepMoLM은 기존 멀티모달 화학 모델이 갖는 세 가지 근본적인 한계를 동시에 해결한다. 첫째, 기존 방법은 시각 인코더와 그래프·문자열 인코더를 고정하고 얇은 어댑터만 연결해 ‘약한 결합(weak coupling)’을 이루어, 고주파 스테레오 화학 마크를 놓치기 쉽다. DeepMoLM은 Dual‑Pathway DeepEncoder를 도입해 1024×1024 이미지의 로컬 패치를 16×16 토큰으로 압축하면서도, SAM‑Base 로컬 트랜스포머와 CLIP‑Large 글로벌 트랜스포머를 병렬 적용해 미세한 결합 기호와 전역 구조를 동시에 포착한다. 이 설계는 self‑attention의 O(N²) 비용을 로컬 윈도우 어텐션으로 제한하면서도, 4096개의 토큰을 유지해 고해상도 정보를 손실 없이 전달한다.

둘째, 3D 정보를 이산화하는 과정에서 발생하는 ‘구조 붕괴’ 문제를 E3FP(Extended 3‑Dimensional Fingerprint)로 해결한다. E3FP는 각 무거운 원자에 대해 K + 1 단계의 반경 기반 해시를 생성하고, 이를 사전 크기 |F| 로 모듈러 연산해 고정된 vocab에 매핑한다. SELFIES 토큰과 1:1 대응하도록 원자‑인덱스 ϕ를 정의함으로써, 토큰 수준에서 2D 토폴로지와 3D 입체 정보를 정확히 정렬한다. 이렇게 만든 3D 토큰 시퀀스는 구조 임베딩 E³D와 결합돼, 시각 토큰이 질의(query) 역할을 하는 교차‑어텐션 모듈에 입력된다.

셋째, 교차‑어텐션 기반 Fusion Projector는 시각 토큰을 Q, 3D 토큰을 K·V 로 사용해, 각 이미지 토큰이 해당 원자‑레벨의 입체 정보를 직접 ‘조회’하도록 설계되었다. 마스크 M을 통해 패딩을 무시하고, 다중 헤드 어텐션을 통해 시각·구조 간 상호작용을 고차원(d_h = 4096) 공간에 통합한다. 이후 Residual + LayerNorm + FFN을 거쳐 최종 fused 토큰 H_fused를 생성하고, 이를 Qwen2‑VL 디코더에 전달한다.

실험 결과는 이 설계가 실제 화학 작업에 미치는 영향을 명확히 보여준다. PubChem 캡션 생성에서는 기존 Vision‑Language 모델 대비 METEOR 점수가 12.3 % 상승했으며, 모든 속성 질의에 대해 유효한 수치를 출력한다. 특히 분자량 예측에서 MAE 13.64 g/mol, 복잡도 예측에서 MAE 37.89를 기록해, 3D‑aware 모델이 물리적 속성을 얼마나 정확히 추정할 수 있는지를 입증한다. ChEBI‑20 데이터셋에서도 일반ist 베이스라인을 넘어서는 성능을 보이며, 전문 모델과 경쟁 수준을 유지한다.

이러한 성과는 두 가지 중요한 시사점을 가진다. 첫째, 고해상도 이미지와 3D 지오메트리를 동시에 활용하면 스테레오 화학 마크(예: 입체 결합, 입체 중심)를 정확히 인식해 텍스트에 반영할 수 있다. 둘째, 원자 좌표를 직접 제공하지 않아도 E3FP와 같은 이산화된 3D 피처만으로 물리적으로 일관된 언어 모델링이 가능함을 증명한다. 앞으로는 더 큰 규모의 3D conformer 데이터와 멀티‑모달 사전학습을 결합해, 약물 설계·문헌 마이닝 전반에 걸친 ‘시각‑구조‑언어’ 삼위일체 모델을 구축할 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기