Protect ^ : 신경‑기호학적 보호 상태 인코딩으로 구현하는 조정 가능한 레트로합성
📝 Abstract
Large Language Models (LLMs) have shown remarkable potential in scientific domains like retrosynthesis; yet, they often lack the fine-grained control necessary to navigate complex problem spaces without error. A critical challenge is directing an LLM to avoid specific, chemically sensitive sites on a molecule - a task where unconstrained generation can lead to invalid or undesirable synthetic pathways. In this work, we introduce Protect $^* $, a neuro-symbolic framework that grounds the generative capabilities of Large Language Models (LLMs) in rigorous chemical logic. Our approach combines automated rule-based reasoning - using a comprehensive database of 55+ SMARTS patterns and 40+ characterized protecting groups - with the generative intuition of neural models. The system operates via a hybrid architecture: an automatic mode'' where symbolic logic deterministically identifies and guards reactive sites, and a human-in-the-loop mode’’ that integrates expert strategic constraints. Through ``active state tracking,’’ we inject hard symbolic constraints into the neural inference process via a dedicated protection state linked to canonical atom maps. We demonstrate this neuro-symbolic approach through case studies on complex natural products, including the discovery of a novel synthetic pathway for Erythromycin B, showing that grounding neural generation in symbolic logic enables reliable, expert-level autonomy.
💡 Analysis
**
1. 연구 배경 및 동기
- LLM 기반 레트로합성: DeepRetro 등 기존 시스템은 LLM의 창의적 제안과 MCTS 탐색을 결합했지만, 화학 선택성(chemoselectivity, regioselectivity) 을 반영한 세밀한 제약을 적용하기 어려웠다.
- 보호 그룹 선택의 부재: 보호가 필요한 기능기와 적절한 보호 그룹을 자동으로 식별·제안하지 못해, 모델이 비현실적인 경로를 생성하거나 “hallucination”이 발생한다.
2. 핵심 아이디어
| 요소 | 설명 | 역할 |
|---|---|---|
| SMARTS 기반 규칙 엔진 | 55+ 패턴을 통해 기능기 자동 탐지 | 반응 부위 식별 (deterministic) |
| 보호 그룹 데이터베이스 | 40+ 보호 그룹, 안정성·정교성·비용 정보 포함 | 최적 보호 그룹 제안·점수화 |
| ProtectionState 객체 | 원자‑맵 번호 ↔ 보호 상태 매핑 (외부 상태) | 신경망에 하드 제약 전달 |
| Contextual Prompt Injection | 보호 상태를 구조화된 텍스트 형태로 LLM에 전달 | 모델이 보호된 부위를 무시하고 탐색 |
| 두 가지 운영 모드 | 자동(전략 자동 적용) / HITL(전문가 선택) | 유연한 워크플로 제공 |
3. 방법론 평가
- 신경‑기호학적 하이브리드: 순수 신경망이 학습으로 규칙을 추정하는 대신, 명시적 기호 규칙을 외부에 두고 LLM에 “가드레일”을 제공함으로써 제어 가능성을 크게 향상시켰다.
- 원자‑맵 기반 안정성: SMILES 문자열의 순열에 무관하게 동일한 원자를 식별할 수 있어, 보호 상태가 일관되게 유지된다. 이는 기존 문자열‑기반 프롬프트가 갖는 불확실성을 해소한다.
- 성능 지표:
- Partial Re‑run 감소: Erythromycin B 합성에서 4→0 (자동 보호 적용 시)
- Top‑1 보호 그룹 정확도: 모든 테스트 케이스에서 100% (표 2)
- 정량적 지표(Pathway Success Rate, Top‑k)는 논문에 상세히 제시되지 않았지만, 질적 사례 연구에서 전문가 수준의 경로를 도출함을 강조한다.
4. 강점
- 제어 가능성: 보호 상태를 하드 제약으로 삽입해 LLM이 “보호된 부위”를 무시하도록 강제, hallucination 위험 최소화.
- 전문가와의 협업: HITL 모드에서 보호 그룹 후보를 제시하고, 사용자가 직접 선택 가능해 전략적 유연성 확보.
- 범용성: SMARTS·보호 그룹 데이터베이스를 교체하면 다른 화학 분야(예: 약물 설계, 고분자 합성)에도 적용 가능.
- 확장 가능성: 논문에서 제시한 “코돈 마킹”·“코드 구조 보존” 등 다른 과학·공학 텍스트 생성 분야에 동일한 신경‑기호학적 접근을 적용할 수 있다.
5. 한계 및 개선점
| 한계 | 상세 내용 | 개선 방향 |
|---|---|---|
| 데이터베이스 의존성 | SMARTS·보호 그룹 리스트가 고정돼 새로운 기능기/보호 그룹 추가 시 수작업 필요 | 자동화된 패턴 학습·확장 메커니즘 도입 (예: 메타‑학습 기반 SMARTS 생성) |
| LLM 프롬프트 의존성 | 보호 상태를 텍스트 형태로 삽입하므로, LLM이 해당 정보를 정확히 해석하는지 검증 필요 | 구조화된 토큰(예: 특수 토큰) 사용 혹은 모델 내부에 직접적인 상태 입력 인터페이스 설계 |
| 성능 평가 부족 | 정량적 벤치마크(시간, 메모리, 성공률)와 비교 실험이 제한적 | 대규모 공개 레트로합성 데이터셋(USPTO, Reaxys)에서 자동·HITL 모드 모두에 대한 통계적 비교 수행 |
| 보호 그룹 선택 기준 단순화 | 현재는 “호환성·비용·정교성” 점수화에 기반하지만, 실제 실험 조건(용매, 온도 등)까지는 반영되지 않음 | 실험적 조건을 포함한 다목적 최적화(멀티‑오브젝티브) 모델 통합 |
6. 향후 연구 방향
- 동적 보호/탈보호 시뮬레이션: 보호 그룹의 탈보호 조건을 모델이 자동으로 고려해, 전체 합성 경로에서 보호·탈보호 순서를 최적화.
- 멀티‑모달 통합: 2D/3D 분자 구조, 반응 메커니즘 데이터와 결합해 보호 그룹 선택을 더욱 정교화.
- 다중 제약 병합: 보호 외에도 입체화학, 라디칼 반응 억제, 촉매 선택 등 다양한 제약을 동일한 ProtectionState와 유사한 구조로 통합.
- 오픈소스 구현 및 커뮤니티 확장: 현재는 DeepRetro 기반이므로, 다른 LLM(예: GPT‑4, LLaMA)과도 호환 가능한 플러그인 형태로 공개하면 활용도가 급증할 것.
7. 종합 평가
Protect $^* $는 신경‑기호학적 하이브리드 접근을 통해 LLM 기반 레트로합성에 필수적인 정밀 제어를 제공한다. 자동 보호 탐지·제안과 인간‑인‑루프 협업을 동시에 지원함으로써, 기존 시스템이 겪던 “전략적 오류”와 “재시작 비용”을 크게 감소시켰다. 특히 복잡한 천연물(Erythromycin B) 사례에서 전문가 수준의 보호 전략을 자동으로 재현한 점은 실용적 가치를 크게 높인다. 다만, 데이터베이스 의존성 및 정량적 벤치마크 부족이 현재 한계이며, 이를 보완한 확장 연구가 진행된다면 화학 합성 자동화뿐 아니라 다른 과학·공학 텍스트 생성 분야에서도 범용적인 제어 프레임워크로 자리매김할 가능성이 크다.
**
📄 Content
**대규모 언어 모델(LLM)의 과학적 발견에의 통합은 특히 화학 합성처럼 복잡한 추론이 요구되는 분야에서 새로운 역량을 열어 주었습니다. DeepRetro[5]와 같은 프레임워크는 LLM의 생성 능력과 구조화된 탐색 알고리즘을 결합함으로써 최첨단을 한 단계 끌어올렸습니다. 그러나 여전히 중요한 한계가 존재합니다. 바로 생성 과정에 대해 세밀하고 전문가 주도의 제약을 부과하기가 어렵다는 점입니다. 기존 시스템은 어느 분자 부위가 보호가 필요하거나 어떤 보호기를 사용해야 하는지를 식별하는 메커니즘이 부족해 전략적으로 결함이 있는 합성 경로를 생성하는 경우가 많습니다. 또한 현재 대부분의 레트로합성 모델은 결합 절단 예측에만 초점을 맞추고 화학 선택성(chemoselectivity)과 위치 선택성(regioselectivity) 문제—즉, 특정 부위가 먼저 반응할지, 목표 물질이 주요 생성물로 형성될지—를 충분히 고려하지 못합니다. 이러한 간과는 화학적으로는 타당하지만 실제 실험에서는 실행 불가능한 경로를 초래합니다.
이 중요한 격차를 메우기 위해 우리는 Protect* 라는 신경‑기호(Neuro‑Symbolic) 프레임워크를 제안합니다. 이 프레임워크는 신경망 직관과 기호적 타당성 사이의 간극을 연결합니다. 순수 신경망 접근법이 데이터 분포로부터 화학 규칙을 학습해야 하는 반면, 우리 시스템은 명시적인 제약이 신경 생성 과정을 안내하는 하이브리드 구조를 채택합니다. 우리는 55개 이상의 SMARTS 패턴에 기반한 엄격한 규칙 기반 엔진을 이용해 반응 가능한 부위를 자동으로 추론하고, 40여 개 후보군으로 구성된 라이브러리에서 최적의 보호기를 제안하는 논리 기반 점수 체계를 구축했습니다. 중요한 점은 이러한 제약이 단순 “제안”에 그치지 않고 지속적인 Protection State 를 통해 강제된다는 것입니다. 활성 상태 추적을 통해 기호적 제약을 신경 추론 컨텍스트에 주입함으로써, 비용이 많이 드는 모델 파인튜닝 없이도 LLM이 잘못된 경로를 탐색하지 않도록 “가드레일”을 제공합니다.
본 논문에서 제시하는 방법은 DeepRetro[5] 시스템의 확장판이며, 레트로합성 분석을 위한 모듈형·하이브리드 프레임워크입니다. DeepRetro는 LLM + Monte Carlo Tree Search(MCTS) 기반 접근법으로 레트로합성 경로를 생성합니다. 이 프레임워크는 모델에 종속되지 않도록 설계돼, Anthropic의 Claude 시리즈[1]와 같은 다양한 LLM을 주요 추론 엔진으로 통합할 수 있습니다. 이렇게 하면 LLM이 화학 공간을 창의적으로 탐색하는 동시에, MCTS 알고리즘이 합성 트리를 체계적으로 구축·확장하여 LLM의 생성 능력을 구조화된 탐색 과정에 고정시킵니다.
컴퓨팅 지표만으로는 화학적 실현 가능성이나 우아함을 충분히 포착할 수 없다는 점을 인식한 DeepRetro는 다면적인 평가 파이프라인을 채택합니다. 각 LLM이 제안한 단계는 안정성, 타당성, 환각(hallucination) 검사를 거쳐 트리 안으로 들어갑니다. Pathway Success Rate, Top‑k 정확도와 같은 정량적 지표는 벤치마킹에 활용되지만, 이러한 지표가 새로운 혹은 더 우아한 경로를 과소평가할 수 있음을 명시합니다. 따라서 DeepRetro는 인간 전문가가 생성된 경로의 새로움과 실용 가치를 평가하는 정성적 사례 연구 분석에 큰 비중을 둡니다. 인간‑인‑루프 검증은 복잡한 합성을 탐색하는 데 필수적이며, 보다 직접적인 인간 가이드 방법을 개발하려는 동기가 됩니다.
LLM을 레트로합성에 활용할 때 직면하는 근본적인 난관은 SMILES 표현 방식에 있습니다. 선형 문자열인 SMILES는 특정 원자 부위를 비반응성으로 표시할 고유 메커니즘을 제공하지 않기 때문에, “특정 작용기에서는 반응하지 말라”는 지시만으로는 충분하지 않습니다. 이는 다른 분야에서도 유사하게 나타나는 문제와 맞닿아 있습니다. 예를 들어, LLM을 프롬프트 인코더로 직접 사용해 diffusion 모델을 제어하면, 모델의 일반화된 훈련과 과제의 차별적 특징 요구 사이에 불일치가 생겨 성능이 저하됩니다[3]. 마찬가지로, 우리 경우에도 “특정 작용기에서는 반응하지 말라”는 단순 프롬프트는 LLM이 공간‑화학적 개념을 문자열에 매핑하는 데 어려움을 겪어 환각과 전략적으로 결함이 있는 제안을 초래합니다. 이를 극복하기 위해 Protect*는 먼저 안정적인 원자 매핑을 통해 보호 부위를 자동으로 식별하고, 적절한 보호기를 제안한 뒤, 프롬프트 엔지니어링과 상태 추적을 통해 제약을 강제하는 공식 메커니즘을 도입합니다(그림 1).
Protect*의 첫 번째 단계: 보호 부위 자동 탐지
Protect*는 RDKit의 서브스트럭처 매칭을 활용해 정규화된 원자‑매핑 SMILES에서 보호가 필요할 수 있는 작용기를 자동으로 찾아냅니다. 55개 이상의 SMARTS 패턴을 10개의 카테고리(1차·2차·3차·알릴·벤질 알코올, 페놀, 디올·폴리올, 아민, 헤테로고리 N‑H(인돌, 피롤, 이미다졸), 카보닐, 카복시산·유도체, 티올, 말단 알킨, 인‑함유 작용기)로 정리하고, 각 패턴에 반응성 수준과 호환 가능한 보호기를 주석 처리했습니다. 정규화된 원자 매핑을 사용함으로써 SMILES 순열이 바뀌어도 부위 식별이 안정적이고 결정론적으로 유지됩니다.
두 번째 단계: 보호기 제안 및 평가
감지된 각 부위에 대해 시스템은 40여 개의 특성화된 보호기 데이터베이스를 조회합니다. 데이터베이스에는 실리록시 에터(TMS, TES, TBS, TIPS, TBDPS), 벤질 에터(Bn, PMB, DMB, Trt), 아세탈(MOM, MEM, THP), 에스터(Ac, Piv, Bz), 카바메이트(Boc, Cbz, Fmoc, Alloc), 설폰아마이드(Ts, Ns, SES) 및 티올·카보닐·디올 전용 특수 보호기가 포함됩니다. 각 보호기 항목에는 보호/탈보호 조건, 산·염기·수소화 안정성 프로파일, 직교성(orthogonality) 점수, 비용 메트릭이 포함되어 있어, 시스템은 작용기 유형, 다른 보호기와의 직교성, 합성 접근성을 기준으로 제안을 순위 매깁니다.
인터랙션 모드
Protect*는 두 가지 보완적인 인터랙션 모드를 지원합니다.
- 자동 모드(auto) – 시스템이 모든 보호 부위를 식별하고, 점수 함수에 따라 각 부위에 대해 최상위 보호기를 선택해 보호 상태에 등록합니다. 일상적인 보호 전략에 적합하며 완전 자동 레트로합성 계획을 가능하게 합니다.
- 인간‑인‑루프 모드(HITL) – 시스템이 각 부위에 대한 보호기 후보 리스트를 순위와 함께 제시하고, 전문가 화학자가 전략적 판단에 따라 선택하도록 합니다. 복잡한 합성에서 비직관적인 직교 보호 전략이 필요할 때 유용합니다.
보호기 선택 후: 컨텍스트 제약 인코딩
보호기가 자동 혹은 사용자가 선택되면 Protect*는 Contextual Constraint Encoding을 수행합니다. 핵심 혁신은 ProtectionState 객체이며, 이는 신경망 외부에 존재하는 지속적인 상태입니다. 이 객체는 특정 정규화 원자 인덱스를 보호 상태와 명시적으로 매핑해, 추론 단계 전반에 걸쳐 변하지 않는 진리 소스로 작동합니다. 이 기호적 상태는 프롬프트 주입을 통해 신경 모델에 연결됩니다. 즉, 보호 상태를 구조화된 형태(예: “Atom [O:7] is protected with TBS”)로 프롬프트에 삽입함으로써, 추상적인 논리를 신경 모델의 토큰 표현에 직접 결합합니다. 이 브리지는 모호한 자연어 해석 부담을 결정론적, 논리‑제한 추론으로 전환시켜, 사용자가 제시한 전략적 제약이 생성 과정에 수학적으로 보존되도록 합니다.
이 방식은 제약 부위에서의 환각 발생 가능성을 크게 낮추며, 모델 오류 감소는 곧 인간 개입 필요성을 감소시킵니다. 우리는 partial re‑runs(실패한 합성 계획을 중단하고 유효한 중간 단계부터 다시 시작하는 절차)라는 지표로 이를 정량화했습니다. 표 1에서 볼 수 있듯, 기존 DeepRetro 시스템으로 Erythromycin B를 합성할 때는 4번의 재실행이 필요했지만, Protect*가 초기부터 전략적 제약을 강제함으로써 재실행 없이 성공했습니다. Prostaglandin E2와 Quinine의 경우 두 방법 모두 재실행 없이 해결되어 기준선을 형성했습니다.
사례 연구: 복잡한 천연물 합성
우리는 자동 제약 인코딩 방법의 효용을 검증하기 위해 자동화가 어려운 천연물들을 대상으로 정성적 분석을 수행했습니다. 목표는 속도나 성공률을 뛰어넘는 것이 아니라, 전문가가 원치 않는 절단을 피하도록 LLM을 유도함으로써 새로운 화학적으로 우아한 경로를 발견할 수 있는지를 평가하는 것이었습니다. Erythromycin B(섹션 4.1), Prostaglandin E2(부록 A.1), Quinine(부록 A.2)에 대해 사례 연구를 진행했습니다.
표 2는 이 목표물들에 대한 자동 프레임워크 성능을 요약하며, 시스템이 모든 반응 부위를 정확히 식별하고 적절한 보호기를 제시(Top‑1 PG Accuracy)했음을 보여줍니다.
Erythromycin B는 다수의 스테레오센터와 민감한 작용기를 가진 대형 폴리케타이드 매크로라이드 항생제로, 특히 여러 유사 반응성을 가진 하이드록실기가 존재합니다. 무가이드 생성 모델은 가장 반응성이 높은 부위에서 절단을 제안하는 경향이 있어 장기 합성 전략과 맞지 않을 수 있습니다. 실험에서는 LLM이 제시한 절단을 보호 메커니즘으로 차단하고, 후기 매크로시클화 단계에 필수적인 특정 2차 알코올을 보호하도록 유도했습니다.
흥미롭게도, 인간 전문가가 HITL 단계에서 선택한 보호기가 자동 모드에서도 동일하게 회수되었습니다. 시스템은 2차 알코올 부위를 정확히 식별하고, 에톡시(OEt) 보호기를 최적으로 순위 매겨 전문가의 전략적 결정을 재현했습니다. 이는 자동 솔버가 복잡 분자에 대해 전문가 수준의 보호 전략을 구현할 수 있음을 증명합니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.