LLM 기반 명시적 추론으로 분자 약물 최적화

LLM 기반 명시적 추론으로 분자 약물 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DrugR은 대형 언어 모델에 명시적 단계별 약리학 추론을 결합해 기존 약물의 SMILES를 보존하면서 ADMET 특성을 동시에 개선한다. 도메인 지속 사전학습, 역데이터 엔지니어링 기반 지도학습, 다중‑granular 강화학습을 순차적으로 적용했으며, 실험에서 기존 LLM·전통 생성 모델 대비 최적화 점수와 구조·결합 유지율이 크게 향상되었다.

상세 분석

본 논문은 LLM이 갖는 풍부한 지식과 추론 능력을 약물 설계에 직접 활용하기 위한 새로운 파이프라인을 제시한다. 먼저 10 000여 개의 기존 약물을 씨드로 삼아, 유사 구조를 무작위 변형하고 ADMETLab 2로 23가지 약리학 지표를 평가한다. 긍정·부정 쌍을 만든 뒤, DeepSeek‑R1을 이용해 “부정 → 긍정” 변환 과정에 대한 설명을 자동 생성함으로써 ‘역데이터 엔지니어링’이라는 라벨링 방식을 도입한다. 이 데이터를 기반으로 LLaMA‑3‑8B‑Instruct를 지속 사전학습(CPT)하고, 도메인 지식이 강화된 코퍼스로 약물 화학 지식을 보강한다. 이어서 지도학습(SFT) 단계에서 모델은 부정 특성을 식별하고 개선 방안을 제시하도록 훈련된다. 핵심은 강화학습(RL) 단계에서 제안한 Group Relative Policy Optimization(GRPO) 알고리즘을 사용해 다중‑granular 보상을 설계한 점이다. 보상은 (1) 특성 로컬라이제이션 정확도, (2) 추론 다양성, (3) 설계 효율성, (4) 원래 약물의 결합 친화도 유지, (5) 구조 유사도 등을 포함한다. 파레토 개선 전략을 통해 서로 상충하는 보상 간 균형을 자동 조정한다. 평가에서는 전체 최적화 점수, Target Property F1, Fingerprint Similarity, Reasoning LMS, Reasoning Richness 등 5가지 지표를 사용했으며, DrugR은 전체 점수 0.2712로 기존 LLM(0.1551)·Diffusion(0.1997) 등을 크게 앞섰다. 특히 구조 유사도 0.64, 결합 에너지 감소 4 % 미만으로 실제 리드 최적화 요구를 만족한다. OOD 실험에서도 소량 파인튜닝만으로 성능 저하를 최소화했으며, 추론 단계에서 ADMET 리스크를 정확히 진단하는 F1 점수도 크게 향상되었다. 한계로는 특정 독성 감소가 활성 부위 교체를 요구할 때 결합 친화도가 감소하는 트레이드오프가 존재한다는 점이며, 이는 다중‑granular RL 설계에서 완전히 해소되지 못한다. 전반적으로 명시적 추론을 강화학습 보상에 직접 연결함으로써, “왜”와 “어떻게”를 동시에 제공하는 약물 설계 시스템을 구현한 것이 가장 큰 기여이다.


댓글 및 학술 토론

Loading comments...

의견 남기기