SynCraft 분자 합성 가능성 최적화를 위한 편집 시퀀스 예측 프레임워크

초록

SynCraft는 대형 언어 모델(LLM)의 추론 능력을 활용해, 생성된 분자의 합성 가능성을 높이기 위한 원자 수준 편집 시퀀스를 예측한다. SMILES 직접 생성 대신 구조 편집을 제시함으로써 문법 오류를 최소화하고, 기존 템플릿 기반 방법이 초래하는 구조적 제한을 극복한다. 벤치마크 실험과 PLK1·RIPK1 사례 연구에서 최신 방법들을 능가하는 합성 가능성 및 구조 보존 성능을 보였다.

상세 요약

본 논문은 분자 생성 모델이 만든 화합물의 합성 가능성 부족이라는 근본적 문제를 “시퀀스 번역”이 아닌 “구조 편집” 문제로 재정의한다. 핵심 아이디어는 LLM에게 목표 분자와 합성 가능성 점수(예: SA, RAscore)를 입력으로 제공하고, 최소한의 원자·결합 변형을 제시하도록 프롬프트를 설계하는 것이다. 이를 위해 저자들은 (1) 편집 언어(Edit Language)를 정의했으며, 여기에는 원자 삽입·삭제·치환, 결합 차수 변경, 고리 개폐 등이 포함된다. 편집 시퀀스는 순차적으로 적용 가능하도록 토큰화되어 LLM의 출력으로 직접 사용된다.

LLM은 사전 학습된 화학 지식을 바탕으로 “합성 절벽(synthesis cliff)”을 탐색한다. 즉, 구조적 변화를 최소화하면서 합성 가능성 점수를 급격히 상승시키는 경로를 찾는다. 논문에서는 GPT‑4‑Turbo와 같은 최신 모델을 사용했으며, “interaction‑aware prompting” 기법을 도입해 모델이 인간 화학자와 대화하듯 피드백을 반영하도록 했다. 구체적으로, 초기 편집 제안에 대해 합성 가능성 점수를 재계산하고, 점수가 충분히 개선되지 않을 경우 추가 프롬프트를 통해 재시도한다.

학습 단계에서는 공개된 대규모 화합물 데이터베이스(ChEMBL, ZINC)에서 합성 가능성 라벨을 이용해 편집 시퀀스를 자동 생성하고, 이를 LLM에 지도학습 형태로 제공한다. 자동 생성된 편집 시퀀스는 “최소 편집 원칙(minimal edit principle)”을 만족하도록 필터링되며, 이는 모델이 과도한 구조 변형을 회피하도록 유도한다.

평가에서는 (i) 합성 가능성 점수 향상, (ii) 원본 구조와의 Tanimoto 유사도, (iii) 생성된 SMILES의 문법 오류율을 주요 지표로 삼았다. SynCraft는 기존의 post‑hoc 필터링, 템플릿 기반 변환, 그리고 직접 SMILES 생성 모델에 비해 평균 27% 이상의 합성 가능성 점수 상승과 0.85 이상의 구조 유사도를 기록했다. 특히, PLK1 억제제와 RIPK1 후보 물질에 대한 케이스 스터디에서, 인간 전문가가 제시한 편집과 거의 일치하는 시퀀스를 자동으로 도출해 실험적 검증 가능성을 크게 높였다.

한계점으로는 편집 언어가 현재 원자·결합 수준에 국한돼 있어 복잡한 보호‑탈보호 전략이나 다단계 반응 경로를 완전히 포착하지 못한다는 점이다. 또한, LLM의 출력이 확률적 특성을 가지므로 동일 입력에 대해 일관된 편집을 보장하려면 추가적인 샘플링 제어가 필요하다. 향후 연구에서는 반응 메커니즘 정보를 통합한 하이브리드 편집 언어와, 강화학습 기반의 편집 정책 최적화를 통해 이러한 제약을 극복할 수 있을 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)