기초 모델 기반 획득 함수로 분자 탐색 효율 극대화

초록

본 논문은 대규모 언어 모델과 화학 전용 기초 모델의 사전 지식을 직접 획득 함수에 통합함으로써, 전통적인 베이지안 최적화가 데이터가 부족하고 후보 공간이 방대할 때 겪는 한계를 극복한다. 후보군을 트리 구조로 분할하고 지역적 획득 함수를 적용해 몬테카를로 트리 탐색을 수행하며, LLM 기반 클러스터링을 이용해 계산 비용을 크게 절감한다. 실험 결과, 제안 방법이 샘플 효율성, 확장성, 그리고 로버스트성 면에서 기존 LLM‑보조 BO보다 현저히 우수함을 입증한다.

상세 요약

이 연구는 베이지안 최적화(BO)의 핵심 병목인 ‘확률적 대리 모델’ 구축을 회피하고, 대신 사전 학습된 대형 언어 모델(LLM)과 화학 전용 기초 모델의 내재된 확률적 지식을 직접 획득 함수에 주입한다는 혁신적 접근을 제시한다. 전통적인 BO는 소수의 실험 데이터로부터 가우시안 프로세스(GP)나 딥 베이지안 네트워크와 같은 서프라시 모델을 학습하고, 이를 기반으로 기대 개선(EI), 확률적 개선(PI) 등 수학적 형태의 획득 함수를 최적화한다. 그러나 분자 설계와 같이 차원이 수천에 달하고 후보군이 수억 개에 이르는 경우, 고차원 피처 표현과 복잡한 베이지안 서프라시 학습이 계산적으로 비현실적이며, 데이터가 극히 제한된 상황에서는 모델이 과적합하거나 불안정해진다.

논문은 이러한 문제를 해결하기 위해 세 가지 핵심 설계를 도입한다. 첫째, ‘likelihood‑free BO’를 채택해 명시적 서프라시 모델 없이도 사전 확률을 활용한다. 구체적으로, LLM이 생성한 SMILES 문자열에 대한 로그 확률을 직접 획득 함수의 스코어링 요소로 사용하고, 화학 전용 기초 모델(예: ChemBERTa)의 임베딩을 클러스터링하여 후보군을 의미론적 그룹으로 나눈다. 둘째, 탐색 공간을 트리 구조로 파티셔닝하고, 각 노드에 지역적 획득 함수를 할당한다. 이때 각 노드의 스코어는 해당 서브스페이스 내 후보들의 LLM‑기반 기대값과 변동성을 결합해 계산되며, 이를 기반으로 몬테카를로 트리 탐색(MCTS)이 수행된다. MCTS는 탐색‑활용 트레이드오프를 자연스럽게 조정해, 높은 기대값을 가진 클러스터를 집중적으로 탐색하면서도 전역적인 탐색을 유지한다. 셋째, 클러스터 수준에서 사전 확률을 추정함으로써 후보 전체에 대한 획득 함수 평가를 대폭 감소시킨다. 즉, 통계적으로 높은 속성을 보이는 클러스터만 상세히 평가하고, 저확률 클러스터는 샘플링을 최소화한다.

이러한 설계는 계산 복잡도를 O(N)에서 O(K·log N) 수준으로 낮추며, 여기서 N은 전체 후보 수, K는 선택된 클러스터 수이다. 또한, 명시적 서프라시 모델이 없으므로 학습 단계에서 발생하는 파라미터 최적화 비용과 불확실성 추정 오류를 회피한다. 실험에서는 공개된 QM9, ZINC, 그리고 실제 약물 후보 데이터셋을 사용해, 제한된 실험 횟수(≤50) 내에 최적 혹은 준최적 분자를 기존 GP‑BO, DeepBO, 그리고 LLM‑보조 BO 대비 2~3배 빠르게 발견한다. 특히, 데이터가 5개 이하인 초저데이터 상황에서도 제안 방법은 안정적인 성능을 유지했으며, 클러스터링 파라미터와 트리 깊이에 대한 민감도 분석에서도 강인함을 보였다.

요약하면, 이 논문은 (1) 사전 학습된 언어·화학 모델의 확률적 지식을 직접 획득 함수에 매핑, (2) 트리 구조와 지역적 획득 함수를 결합한 MCTS 기반 탐색, (3) 클러스터 기반 샘플링 제한을 통한 확장성 확보라는 세 축을 통해, 기존 BO가 직면한 고차원·저데이터·대규모 후보군 문제를 효과적으로 해결한다.

초록

상세 요약

📜 논문 원문 (영문)