전략적 회귀합성 예측을 위한 추론 LLM RetroReasoner

전략적 회귀합성 예측을 위한 추론 LLM RetroReasoner
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RetroReasoner는 화학자의 결합 절단 전략을 모방한 추론 텍스트를 학습 데이터로 활용해, 제품‑반응물 관계를 단계별로 설명하면서 정확하고 다양성 높은 회귀합성 반응물을 예측한다. SFT와 라운드‑트립 정확도를 보상으로 하는 RL을 결합해 기존 LLM 기반 모델을 능가한다.

상세 분석

본 논문은 회귀합성(retrosynthesis) 문제를 “전략적 결합 절단 → 신톤(synthon) 생성 → 합성 등가물 매핑”이라는 화학자의 사고 흐름에 맞춰 단계별 텍스트로 변환하고, 이를 대규모 언어 모델에 학습시키는 새로운 파이프라인을 제시한다. 핵심 기여는 두 가지이다. 첫째, SyntheticRetro라는 데이터 생성 프레임워크를 구축해, 제품 SMILES와 자동 추출된 기능기, 반응 중심, 원자 매핑 등 3가지 정보(직접 사용 가능, 모델 예측, 규칙 기반)를 결합하고, GPT‑oss‑20B를 이용해 “제품 분석(R1) → 핵심 서브스트럭처 식별(R2) → 전략적 결합 절단(R3) → 신톤‑합성 등가물 매핑(R4)”이라는 네 단계의 구조화된 추론 텍스트를 자동 생성한다. 각 단계는 <PRODUCT_INFO>, <CANDIDATE_STRUCTURE>, <STRATEGIC_BOND_DISCONNECTION>, <SYNTHETIC_EQUIVALENT> 태그로 구분되며, 단계 사이를 연결하는 자연어(L12, L23, L34)도 함께 생성한다. 이렇게 만든 15개의 변형 텍스트를 매 epoch마다 교체해 모델이 다양한 논리 흐름을 학습하도록 설계하였다.

둘째, 이렇게 생성된 추론 텍스트를 목표 출력으로 삼아 LLM을 SFT 단계에서 미세조정하고, 이후 라운드‑트립 정확도(round‑trip accuracy)를 보상으로 하는 강화학습(RL) 단계에서 Group Relative Policy Optimization(GRPO)를 적용한다. 라운드‑트립 보상은 예측된 반응물을 전방 합성 모델에 입력해 재생성된 제품이 원본과 일치하는지를 평가함으로써, 단일 정답에 국한되지 않고 다중 유효 반응물 집합을 포괄한다.

실험에서는 USPTO‑Full, USPTO‑50K, 희귀 원소·희귀 n‑gram 토큰이 많이 포함된 테스트셋 등 다양한 도메인에서 RetroReasoner(SFT)와 RetroReasoner(RL) 모두 기존 최첨단 모델(예: Chem‑R, ChemDFM, Retro‑Expert 등)을 크게 앞섰다. 특히 RL 단계에서 feasible ratio(실현 가능성 비율)와 diversity(다양성) 모두 상승했으며, 어려운 반응 유형(예: thioether 형성, 다중 결합 절단)에서도 높은 top‑k 정확도를 기록했다.

이러한 결과는 “전략적 추론 텍스트 + 검증 가능한 라운드‑트립 보상”이라는 두 축이 화학적 타당성을 유지하면서도 LLM의 생성 능력을 극대화한다는 점을 입증한다. 또한, 다중 정답을 허용하는 회귀합성 특성에 맞춰 보상 설계가 이루어졌기 때문에, 기존의 정확도‑중심 보상보다 실제 실험 가능성이 높은 제안을 더 많이 생성한다는 실용적 장점도 있다. 향후 연구에서는 다단계(멀티‑스텝) 플래닝, 실험 조건(촉매, 용매)까지 포함한 종합 설계로 확장할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기