대형 언어 모델을 활용한 합성 전략 코딩 및 CASP 향상

읽는 시간: 8 분
...

📝 Abstract

Modern computer-assisted synthesis planning (CASP) systems show promises at generating chemically valid reaction steps but struggle to incorporate strategic considerations such as convergent assembly, protecting group minimization, and optimal ring-forming sequences. We introduce a methodology that leverages Large Language Models to distill synthetic knowledge into code. Our system analyzes synthesis routes and translates strategic principles into Python functions representing diverse strategic and tactical rules, such as strategic functional group interconversions and ring construction strategies. By formalizing this knowledge as verifiable code rather than simple heuristics, we create testable, interpretable representations of synthetic strategy. We release the complete codebase and the USPTO-ST dataset -synthesis routes annotated with strategic tags. This framework unlocks a novel capability for CASP: natural language-based route retrieval, achieving 75% Top-3 accuracy on our benchmark. We further validate our library through temporal analysis of historical trends and chemically intuitive route clustering that offers more granular partitioning than common previous

💡 Analysis

이 논문은 기존 CASP 시스템이 직면한 전략적 한계를 극복하기 위해 ‘지식 증류’를 핵심 아이디어로 삼는다. 대형 언어 모델(LLM)은 방대한 화학 문헌과 특허 데이터를 사전 학습함으로써 인간 화학자가 암묵적으로 사용하는 전략적 사고를 내재하고 있다. 연구팀은 이러한 LLM을 프롬프트 엔지니어링과 인간‑인공지능 협업 과정을 통해 ‘전략 규칙’이라는 형태로 추출한다. 구체적으로, 합성 경로를 입력으로 받아 각 단계에 적용 가능한 전략적 원칙(예: 보호기 선택, 기능기 전환, 고리 형성 순서)을 파이썬 함수로 변환한다. 이 함수들은 입력(분자 구조, 반응 전후 조건)과 출력(전략 적용 여부, 변형된 구조) 사이의 명확한 인터페이스를 제공하므로, 자동화된 검증 파이프라인을 구축할 수 있다.

코드 기반 전략 표현의 장점은 세 가지로 요약된다. 첫째, 테스트 가능성이다. 각 규칙은 유닛 테스트와 회귀 테스트를 통해 지속적으로 검증될 수 있어, 새로운 데이터가 추가되더라도 일관성을 유지한다. 둘째, 해석 가능성이다. 화학자는 함수 내부 로직을 직접 살펴봄으로써 모델이 왜 특정 전략을 선택했는지 추론할 수 있다. 셋째, 재사용성이다. 한 번 정의된 전략 함수는 다른 CASP 파이프라인이나 새로운 합성 프로젝트에 그대로 적용 가능하다.

데이터 측면에서는 USPTO‑ST 데이터셋을 구축하였다. 기존 USPTO 특허 데이터에 ‘전략 태그’를 부착함으로써, 각 반응이 어떤 전략적 목표를 달성하려는지 메타 정보를 제공한다. 이 데이터셋은 LLM이 전략 규칙을 학습하고, 또한 외부 검증용 베이스라인으로 활용될 수 있다.

성능 평가에서는 자연어 기반 경로 검색(Natural‑Language Route Retrieval) 태스크를 설계하였다. 사용자는 “보호기 최소화와 고리 형성을 동시에 고려한 6‑step 합성”과 같은 질의문을 입력하고, 시스템은 전략 태그가 부합하는 상위 3개의 경로를 반환한다. Top‑3 정확도 75%는 기존 CASP 시스템이 제공하는 단순 반응 예측 모델보다 현저히 높은 수치이며, 전략적 일치성을 효과적으로 포착함을 의미한다.

추가 실험으로는 시간적 트렌드 분석과 화학적 직관에 기반한 경로 군집화가 있다. 전략 규칙을 기준으로 경로를 클러스터링하면, 1990년대와 2020년대 사이에 보호기 사용 패턴, 고리 형성 선호도가 어떻게 변했는지를 시각화할 수 있다. 이는 화학자에게 과거 성공 사례를 탐색하고, 최신 전략을 학습하는 데 유용한 인사이트를 제공한다.

한계점으로는 LLM이 학습한 지식이 특허 문헌에 편향될 수 있다는 점, 그리고 복잡한 다중 목표 최적화(예: 비용, 환경 영향)를 코드화하는 데 추가적인 메타휴리스틱이 필요하다는 점을 들 수 있다. 향후 연구에서는 멀티오브젝티브 최적화와 실험실 피드백을 순환시켜 전략 규칙을 동적으로 업데이트하는 프레임워크를 구축하고자 한다.

전반적으로 이 연구는 “전략을 코드화한다”는 새로운 패러다임을 제시함으로써, CASP 시스템이 단순히 반응을 예측하는 수준을 넘어, 인간 화학자의 전략적 사고를 디지털화하고 검증 가능한 형태로 제공할 수 있음을 증명한다.

📄 Content

대형 언어 모델을 활용한 합성 전략 코딩 및 CASP 향상

컴퓨터 보조 합성 계획(CASP)은 초기 규칙 기반 시스템에서부터 복잡한 분자를 위한 제안 회귀적 분해와 같은 고급 기계 학습 모델로 발전했습니다. [1][2][3][4][5][6][7][8][9][10][11][12] 이러한 시스템은 화학 공간을 체계적으로 탐색하여 대상 분자와 상업적으로 이용 가능한 시작 물질 사이의 경로를 연결할 수 있습니다. [13][14][15][16][17][18][19][20]

그러나 중요한 공백이 남아 있습니다. 이러한 시스템은 일반적으로 화학적으로 유효한 단계들을 생성하지만, 전략적 고려 사항에 기반하여 경로를 평가하는 데는 어려움을 겪습니다. 예를 들어, 수렴 조립, 보호기 최소화, 최적의 고리 형성 시퀀스와 같은 요소들이 포함됩니다. [1, 21] 이는 “바늘 찾기 바다” 문제를 야기합니다. CASP는 수천 개의 유효 경로를 생성할 수 있지만, 전략적으로 건전하게 설계된 경로들을 식별하는 데에는 실패합니다. 이를 해결하기 위해 신경망을 이용한 경로 순위 매기기와 합성 비용 추정과 같은 연구들이 진행되었습니다. [9, 18, 22]

최근의 노력들은 특정 합성 제약 조건에 초점을 맞추었습니다. 예를 들어, 반응 클래스 지침 [23], 조립 촉진 문구 [24], 결합 제한 [25], 시작 물질 제한 [26, 27] 등이 있습니다. 또한, 단일 단계 반응 점수 기반으로 경로 평가를 결합한 네트워크 접근법 [8, 13]도 존재합니다. 통계적 방법은 템플릿 시퀀스 중복을 통해 가능성을 정량화하는 반면, 합성 전략을 고려한 복합 점수 스케줄링은 경로의 길이와 단계 신뢰도를 함께 고려합니다. [29] 이러한 접근법들은 개별 전술적 결정에 집중하지만, 전문가 화학자들이 설계할 때 사용하는 전체적이고 고차원적인 추론과는 거리가 멉니다.

대조적으로, 최근 작업들은 트랜스포머 기반 모델을 활용하여 전체 합성 경로를 자가 회귀적으로 생성함으로써 다단계 합성 전략을 암묵적으로 포함하는 방향으로 나아갔습니다. [30, 31] 또한, Roh 등 연구자들은 유기 화학 교육 실습에 맞춰 합성 계획의 재구성 방법을 제안했습니다. [32] 이를 통해 모델은 고차원적인 전략적 추론을 할 수 있게 됩니다.

지난 몇 년간, 현대 대형 언어 모델(LLM)의 기능은 다양한 화학적 작업에서 상당한 발전을 이루었습니다. 초기 화학 지식 시연은 Jablonka 등 연구자 [33]와 Guo 등 연구자 [34]에 의해 이루어졌습니다. Bran 등 연구자 [35]와 Boiko 등 연구자 [36]는 GPT-4가 화학 작업 계획과 도구 사용에 뛰어난 성능을 발휘함을 보여주었습니다. 이후, 다양한 LLM을 활용한 데이터 추출, 회귀 합성, 화학적 최적화 및 다른 많은 작업들을 위한 광범위한 연구들이 진행되었습니다. [37][38][39][40][41][42][43]

최근 연구들은 LLM이 광범위한 전략 지식을 보유하고 있음을 보여주었습니다. Bran 등 연구자들은 LLM을 활용하여 CASP 출력을 재순위 매기는 데 성공했습니다. [44] 그러나 이 접근법은 계산적으로 비효율적이며 각 경로에 대한 실시간 추론을 요구합니다. 초기 노력들은 트리 LSTM과 유사성 지표를 사용하여 후처리 평가에 초점을 맞췄으며, 이는 전술적인 능력(유효한 반응 단계 생성)과 전략적 추론(전략적으로 건전하게 경로를 설계) 사이의 격차를 좁히지 못했습니다. [9, 45, 46, 47]

이러한 격차를 해소하기 위해 우리는 LLM의 코드 생성 능력을 활용하여 명시적인 전략 지식을 암묵적인 실행 가능한 파이썬 함수로 변환하는 새로운 접근법을 제안합니다. 코드 제공은 해석 가능성, 자동 테스트 가능성, 구성 가능성, 저렴한 평가로 인해 독특한 표현 방식을 제공합니다.

전략적 지식에서 실행 가능한 함수로의 전환:

반응 템플릿과 같은 기존 단일 단계 표현은 개별 원자 매핑 변환에 국한되어 있으며, 다단계 관계 논리를 포착할 수 없습니다. 우리의 작업은 전략적 지식을 실행 가능한 함수로 표현함으로써 이러한 격차를 해소합니다. 함수는 전체 합성 경로를 분석하고 복잡한 다단계 시퀀스를 코딩할 수 있습니다. 예를 들어, 특정 환원 조작 전술(에스터 감소 후 알코올 산화)이나 마스(multi-step) 아민 전략(예: 아지드 중간체 포함)을 검증하는 함수가 될 수 있습니다. 또한, 고리 공합성, 후기 기능화, 보호기 사용과 같은 글로벌 경로 속성을 평가할 수도 있으며, 이는 단일 단계 표현을 넘어서는 개념입니다.

핵심적인 측면은 LLM을 활용하여 전략적으로 의미 있는 다단계 패턴을 식별하는 것입니다. 모든 가능한 반응 시퀀스를 탐색하는 것은 계산적으로 비현실적이기 때문에, 정적 단일 단계 표현에 의존하는 대신 동적 실행 가능한 논리를 도입합니다. 이는 더 포괄적이고 화화학적으로 뉘앙스 있는 경로 평가를 가능하게 합니다.

데이터셋 및 실험:

우리는 USPTO-STEREO 데이터셋을 사용하여 화학 반응을 추출한 후, 깊이 우선 탐색(DFS)을 통해 다단계 합성 경로로 변환했습니다. 또한, PaRoutes와 같은 표준 벤치마크 데이터셋도 사용했습니다. PaRoutes는 n1 형식(어떤 특허에서 하나 이상의 경로가 포함될 수 있음)과 n5 형식(특허에서 최대 5개의 경로가 포함될 수 있음)으로 제공됩니다.

우리의 전략적 경로 검색 작업을 위해, 우리는 USPTO 훈련 및 검증 세트에서 2,500, 500, 그리고 1,000개의 경로를 추출하여 전략적 다양성을 높인 벤치마크를 생성했습니다. PaRoutes-n1은 전략적 복잡성을 증가시키기 위해 사용되었습니다.

경로 클러스터링 실험을 위해, Genheden 등 연구자들이 사용한 ChEMBL 데이터셋에서 5,000개의 분자에 대해 AiZynthFinder를 실행하여 경로를 생성했습니다.

전략 기반 경로 검색:

우리는 복잡성, 독특하거나 희귀한 범주적 검사(명명 반응, 고리 시스템 및 기능 그룹), 그리고 전략적 복잡성의 조합을 기준으로 55개의 테스트 케이스를 포함한 인간 주석 벤치마크를 생성했습니다.

암묵적인 전략 지식의 명시화:

LLM(Claude-3.7-Sonnet)을 사용하여 화학 전략 라이브러리를 생성했습니다. 이 라이브러리는 다단계 패턴을 추출하고 실행 가능한 파이썬 함수로 변환하는 다단계 지식 추출 프로세스를 통해 만들어졌습니다. LLM은 합성 경로를 분석하고, 그 아래에 있는 화학적 전략을 추상화하며, 이를 파이썬 함수로 변환합니다.

이 과정은 다음과 같은 단계를 포함합니다:

  1. 자연어 설명: LLM은 주어진 합성 경로에 대한 자연어 설명을 생성합니다.
  2. 함수 생성: LLM은 설명된 전략을 파이썬 함수로 변환합니다.

Claude-3.7-Sonnet은 이 작업에 가장 적합한 모델로 선택되었습니다. 각 경로는 USPTO 특허에서 유래하여 전략적으로 풍부한 데이터셋을 만듭니다. 생성된 함수는 초기 세트에서 자동 정제 파이프라인에 의해 테스트 및 재구성되었습니다.

더 나은 화학 반응과 경로 이해를 보여주었던 최신 LLM(Gemini-2.5-Flash, Gemini-2.5-Pro)이 추가로 사용되어 함수의 화학적 관련성과 품질을 평가했습니다.

우리는 엄격한 제약을 유지하여 함수의 핵심 논리를 보존했습니다. 이 반복적인 생성, 테스트, 그리고 제약 재구성 사이클은 1,076개의 함수로 구성된 최종 라이브러리를 생성했습니다. 추가 세부 사항은 부록을 참조하십시오.

전략적 패턴 클러스터링:

우리는 5,000개의 합성 경로를 계획한 ChEMBL 데이터셋에서 생성된 함수를 사용하여 전략적 패턴 클러스터링 분석을 수행했습니다. 각 경로는 이진 전략 지문으로 변환되어, 각 위치가 특정 전략 함수가 만족되는지 표시합니다. K-평균 클러스터링 알고리즘을 사용하여 경로들을 유사한 지문으로 그룹화하여, 공통적으로 동반되는 함수 집합을 정의하는 전략 각 전략을 드러내는 클러스터를 식별했습니다.

자연어 기반 전략 검색:

전략 라이브러리에 기반한 검색 프레임워크는 화학자들이 복잡한 전략을 설명하는 자연어 쿼리를 통해 합성 경로를 검색할 수 있도록 합니다. 사용자는 원하는 전략을 자연어로 입력(예: “후기 단계에서 수렴 조립을 사용하여 C-C 결합을 형성하는 합성”)합니다.

쿼리 리라이터 LLM:

자연어 쿼리를 구조화된 쿼리로 변환하는 데는 Query Rewriter LLM(Gemini-2.5-Flash)이 사용됩니다. 시스템은 이 쿼리를 사용하여 합성 경로 라이브러리를 효율적으로 검색하고, 세분적 유사성과 범주적 일치 검사를 통해 경로를 찾습니다. 세분적 일치는 텍스트 유사성을 추정하며, 범주적 검사는 명명 반응, 기능 그룹 또는 고리 시스템과 같은 특정 요소들을 테스트합니다. 검색 결과는 원본 쿼리에 대한 정확성과 완전성에 따라 순위가 매겨집니다.

전략 라이브러리의 가장 혁신적인 응용 프로그램은 대규모 합성 데이터셋을 고차원적인 전략 개념을 사용하여 탐색하는 것입니다. 우리는 자연어 쿼리를 구조화된 검색으로 변환하여 화학자들이 수천 개의 유효한 하지만 일반적인 가능성 중에서 선택할 수 있도록 하는 검색 프레임워크를 개발했습니다.

이 시스템은 세 단계로 작동합니다:

  1. 자연어 입력 변환: LLM은 사용자 입력을 자연어 쿼리로 변환합니다.
  2. 구조화된 쿼리 생성: LLM은 세분적 설명과 범주적 검사를 포함하는 구조화된 쿼리를 생성합니다.
  3. 검색 및 랭킹: 시스템은 전략 라이브러리를 검색하고, 엄격한 범주적 접근 방식(50.9% Top-1)에 비해 초기 세분적 필터링이 효과적임을 보여주는 세분적 유사성 필터링을 적용한 후 경로를 찾고 랭킹합니다.

결과 및 분석:

우리의 방법론은 알려진 역사적 추세를 포착할 수 있는지 검증하기 위해 USPTO 데이터셋 전체에 적용되었습니다. 우리는 매년 각 전략 클래스의 발생 빈도를 계산하여 전략적 변화의 패턴을 분석했습니다.

결과(그림 3)는 명확하고 잘 문서화된 전략적 변화가 있음을 보여줍니다. 예를 들어, 그림 3a는 트리아졸 합성에서 빠른 진화를 보여줍니다. 그림

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키