LLM 기반 다중 에이전트로 유기 태양전지 물질 신속 탐색
초록
OSCAgent은 플래너, 제너레이터, 익스페리멘터 세 개의 협업 에이전트로 구성된 자동화 파이프라인이다. 플래너는 문헌과 기존 후보를 검색·요약해 설계 방향을 제시하고, 제너레이터는 LLM을 이용해 새로운 수용체 분자를 생성한다. 익스페리멘터는 멀티모달 PCE 예측기와 합성 가능성·전자구조 평가를 수행해 피드백을 제공한다. 반복 학습을 통해 화학적으로 타당하고 높은 예측 효율(최대 18 %)을 보이는 후보를 지속적으로 도출한다.
상세 분석
OSCAgent의 핵심 설계는 ‘검색‑보강( retrieval‑augmented ) 플래닝’과 ‘LLM‑구동 제너레이션’의 결합이다. 플래너는 최신 논문에서 보고된 고성능 수용체와 이전 사이클에서 우수한 후보를 벡터화된 임베딩으로 저장하고, 유사도 기반 검색을 통해 구조적·전자적 패턴을 추출한다. 이렇게 얻은 지식은 프롬프트에 삽입돼 LLM에게 구체적인 설계 목표(예: 낮은 SAscore, 특정 HOMO‑LUMO 구간)와 변형 아이디어(핵심 골격 교체, 사이드 체인 최적화)를 전달한다. 제너레이터는 GPT‑4‑Turbo 기반 모델로, SMILES 문자열을 직접 생성하면서 화학 규칙(valence, aromaticity) 검증을 내장한다. 생성 단계에서 ‘synthetic accessibility’와 ‘drug‑likeness’ 점수를 사전 필터링에 활용해 비현실적 후보를 최소화한다.
익스페리멘터는 세 축의 평가를 통합한다. 첫째, 멀티모달 PCE 예측기는 그래프 신경망과 SMILES 트랜스포머를 결합하고, Morgan fingerprint를 MoE 인코더에 병합해 표현력을 강화한다. 사전 학습은 Lopez 데이터(≈5만 건)에서 대조 학습과 LUMO 보조 과제를 통해 수행되며, 실험 데이터(≈1천 건)로 미세조정한다. 둘째, 불확실성 정량화(heteroscedastic Gaussian loss)를 도입해 예측 평균과 분산을 동시에 출력, 높은 불확실성을 가진 후보는 탐색 우선순위에서 제외한다. 셋째, 합성 가능성(SAscore)와 HOMO/LUMO 예측 모델을 통해 물리·화학적 실현 가능성을 검증한다.
피드백 루프는 후보 데이터베이스를 동적으로 업데이트하고, 플래너가 최신 평가 결과를 반영해 설계 전략을 재조정하도록 만든다. 실험 결과, OSCAgent은 기존 VAE·GA 기반 베이스라인 대비 평균 PCE 예측값이 12 %p 상승했으며, 상위 5 % 후보 중 30 %가 18 %에 근접하는 효율을 보였다. 또한, 생성된 분자는 모두 화학적 유효성 검사와 합성 가능성 기준을 통과했다. 한계점으로는 실험적 검증 부재와 LLM 프롬프트 설계에 대한 인간 의존성이 남아 있어, 완전 자동화 수준까지는 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기