에이전트 강화학습 기반 차세대 화학 언어 모델 ChemCRAFT
초록
ChemCRAFT는 소형 언어 모델에 외부 화학 도구를 호출하도록 학습시켜, 지식 저장을 분리하고 프라이버시와 비용을 절감한다. 에이전트 궤적 데이터셋(ChemToolDataset)과 SMILES‑GRPO 보상 함수를 이용해 두 단계(Cold‑Start SFT → RL) 학습을 수행했으며, ChemCoT‑Bench의 9개 과제에서 클라우드 기반 대형 LLM을 능가하는 성능을 보였다.
상세 분석
본 논문은 화학 언어 모델(LLM)이 “모든 지식을 내부에 저장한다”는 기존 패러다임을 비판하고, 지식 저장과 추론을 명확히 분리하는 ‘인지 탈동화(Cognitive Decoupling)’ 구조를 제안한다. 핵심 아이디어는 작은 파라미터 규모(7 ~ 14 B) 모델이 외부 화학 에이전트 샌드박스와 API 형태로 상호작용하도록 학습시키는 것이다. 이를 위해 저자들은 먼저 공공 데이터(PubChem, ChEMBL, ZINC)에서 2.9 M 분자, 1.2 M 반응, 0.6 M 물성 데이터를 추출하고, 화학 도구(RDKit 파싱, QED·LogP 계산, 반응 검색 등)를 마이크로서비스화한 Chemical Agent Sandbox를 구축하였다.
데이터 구축 단계에서는 순수 텍스트 기반의 추론 궤적이 아니라, “가설‑행동‑관찰” 루프를 실제 도구 호출 결과와 결합한 에이전트 궤적을 생성한다. 특히 ‘반사적 정제(Reflective Refinement)’ 메커니즘을 도입해, 원시 API 로그를 인간 전문가 수준의 서술형 설명으로 변환함으로써 모델이 도구 결과를 논리적으로 해석하고 재조정하도록 설계하였다. 이렇게 만든 ChemToolDataset은 현재 공개된 화학 도구 사용 궤적 중 가장 규모가 크며, 다양한 작업(분자 이해, 편집, 최적화, 합성 경로 예측 등)을 포괄한다.
학습은 두 단계로 진행된다. 1) Cold‑Start SFT 단계에서는 토큰‑레벨 손실을 최소화해 모델이 화학 구문과 도구 호출 형식을 기본적으로 익히게 한다. 2) 강화학습 단계에서는 Group‑Relative Policy Optimization(GRPO)을 적용하고, SMILES‑GRPO라는 다차원 화학 보상 함수를 설계한다. 이 보상은 (i) SMILES 정확도와 스캐폴드 유사도, (ii) 기능기 매칭, (iii) 반응 템플릿 일치, (iv) 물성 개선(ΔLogP, ΔQED) 등을 종합적으로 평가한다. 따라서 모델은 단순 텍스트 일치가 아니라 과학적 타당성을 최대화하도록 정책을 업데이트한다.
평가에는 ChemCoT‑Bench이라는 9개 주요 과제·22개 세부 과제로 구성된 종합 벤치마크를 사용했다. 실험 결과, ChemCRAFT는 기능기 검출(MAE 0.03), 링 시스템 검출(100 % 정확도), 분자 편집(정확도 ≈ 95 %) 등에서 기존 오픈소스 모델과 상업용 LLM(GPT‑4, Claude 등)을 크게 앞섰다. 특히 물성 최적화와 retrosynthesis 예측에서는 14 B 파라미터 모델임에도 불구하고 클라우드 기반 100 B급 모델과 동등하거나 우수한 성능을 기록했다. 이는 도구 호출을 통해 정확한 계산을 외부에 위임함으로써, 작은 모델이 고차원 화학 논리를 유지할 수 있음을 증명한다.
한계점으로는 샌드박스에 포함된 도구가 제한적이며, 새로운 도메인(예: 금속 복합체, 고분자)에서는 추가 엔지니어링이 필요하다는 점을 언급한다. 또한 RL 단계에서 보상 설계가 복잡하고, 정책 안정화에 상당한 튜닝이 요구된다는 점도 제시한다. 그럼에도 불구하고, 비용·프라이버시·배포 용이성 측면에서 실험실 수준의 AI 화학 조수 구현에 큰 진전을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기