구조 기반 약물 설계를 위한 분해형 직접 선호 최적화
초록
DecompDPO는 확산 모델을 약물 설계에 맞추기 위해 다중‑granularity 선호쌍을 활용하고, 목표별 분해 가능성을 이용해 전역·국소 DPO를 결합한다. 물리 기반 에너지 제약을 추가해 현실적인 3D 구조를 유지하면서, CrossDocked2020 벤치마크에서 분자 생성 시 98.5% Med. High Affinity와 43.9% 성공률, 목표 최적화 시 100% Med. High Affinity와 52.1% 성공률을 달성한다.
상세 분석
DecompDPO는 기존 구조 기반 약물 설계(SBDD)에서 가장 큰 병목인 고품질 단백질‑리간드 복합체 데이터의 부족을 직접적인 선호 정렬(preference alignment) 방식으로 보완한다. 핵심 아이디어는 두 단계로 나뉜다. 첫째, 목표 함수(예: Vina 점수, QED, SA 등)가 분해 가능(decomposable)하면 해당 목표를 서브스트럭처 수준으로 분해하여 LocalDPO를 적용하고, 분해 불가능하거나 전역적인 특성을 갖는 경우에는 GlobalDPO를 사용한다. 이렇게 하면 모델이 전체 분자 수준의 선호와 동시에 부분 구조 수준의 선호를 동시에 학습할 수 있어, 특정 서브포켓에 대한 친화도는 유지하면서 전체적인 약물성(Drug‑likeness)도 개선한다.
둘째, 물리 기반 에너지 항을 손실에 추가한다. 구체적으로, 각 원자의 좌표와 결합 길이를 물리적 잠재 에너지 함수(Lij, Lik, Aijk 등)와 비교해 평균·표준편차를 구하고, 이 값이 훈련 데이터 분포에서 크게 벗어날 경우 페널티를 부여한다. 이는 확산 과정에서 생성된 분자가 비현실적인 왜곡을 피하고, 실제 실험에서 측정 가능한 결합 모드와 일치하도록 만든다.
또한, 선호쌍을 생성할 때 사전 훈련된 확산 모델로부터 후보 분자를 샘플링하고, 각 후보에 대해 다중 목표 점수를 계산한다. 이후 점수 차이가 일정 임계값을 초과하는 경우에만 선호쌍을 구성해 DPO 손실을 계산한다. 이 과정에서 선호쌍의 비율을 조절하기 위해 선형 β 스케줄을 도입했으며, 이는 초기 단계에서 큰 변동성을 허용하고 후반부에서는 안정적인 미세조정을 가능하게 한다.
실험 결과는 두 가지 시나리오에서 크게 차별화된다. (1) 다양한 단백질 패밀리 전반에 걸친 분자 생성에서는 기존 Diffusion‑SBDD 모델 대비 Med. High Affinity 비율이 98.5%까지 상승하고, 성공률이 43.9%로 30% 이상 개선되었다. (2) 특정 서브포켓을 고정하고 목표 최적화를 수행할 때는 모든 테스트 케이스에서 Med. High Affinity를 달성했으며, 성공률도 52.1%로 높은 수준을 유지했다. 이는 특히 서브포켓‑특이적 최적화에서 LocalDPO와 물리 제약이 시너지 효과를 발휘했음을 의미한다.
비교 연구에서는 Gu et al. (2024)의 DPO 기반 SBDD 파인튜닝과 차별점을 명확히 제시한다. Gu 팀은 전역적인 바인딩 친화도만을 대상으로 하여 물리적 타당성을 검증하지 않았지만, DecompDPO는 전·후 구조적 일관성을 동시에 고려한다. 또한, DecompOpt(2024)과 달리 고정된 파라미터가 아닌, 선호쌍을 통한 직접적인 파라미터 업데이트를 수행함으로써 정적 모델의 한계를 극복한다.
한계점으로는 선호쌍 생성에 필요한 오라클(예: Vina, QED) 계산 비용이 여전히 높으며, 물리 기반 에너지 항의 파라미터 선택이 데이터셋에 민감할 수 있다는 점을 들 수 있다. 향후 연구에서는 더 효율적인 오라클 근사와, 다중 단백질‑다중 리간드 상황에서의 확장성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기