구조 인식형 3D 리간드 생성·친화도 예측 통합 모델 FLOWR.root
초록
FLOWR.root는 SE(3) 등변성을 갖는 흐름 매칭 백본을 이용해 단백질 포켓을 조건으로 3차원 리간드를 생성하고, pIC₅₀·pKᵢ·pK_d·pEC₅₀ 등 다중 친화도 지표를 동시에 예측한다. 대규모 저품질 데이터와 고품질 코크리스털 데이터를 단계별로 학습하고, LoRA 기반 파라미터 효율적 파인튜닝으로 프로젝트 특화 SAR에 빠르게 적응한다. 무조건 생성, 상호작용·파마코프 조건 생성, 스캐폴드 교체·프래그먼트 성장 등 다양한 생성 모드를 지원하며, 중요도 샘플링을 통해 친화도 중심 설계가 가능하다. 벤치마크에서 기존 최첨단 모델을 능가하고, QM 계산과의 상관관계도 높아 구조 기반 약물 설계 전 단계에 활용할 수 있다.
상세 분석
FLOWR.root는 SE(3)‑equivariant flow‑matching 프레임워크를 기반으로, 노이즈 혹은 프래그먼트 앵커를 입력으로 받아 단백질 포켓 내부에 리간드의 좌표·원자 종류·결합 정보를 동시에 복원한다. 핵심은 포켓 인코더와 리간드 디코더의 이중 구조이다. 포켓 인코더는 전원 원자 수준의 피처를 등변 자기‑어텐션으로 처리해 불변 및 등변 표현을 생성하고, 리간드 디코더는 내부 어텐션으로 분자 내 상호작용을 모델링한 뒤 포켓 컨텍스트와 교차 어텐션으로 결합한다. 출력 헤드는 (1) 구조 헤드 – 좌표, 원자 타입, 결합 차수, 전하, 하이브리다이제이션을 예측하고, (2) 다중 친화도 헤드 – pIC₅₀, pKᵢ, pK_d, pEC₅₀를 별도 MLP로 추정하며, (3) 신뢰도 헤드 – pLDDT 기반 불확실성을 제공한다. 학습 손실은 좌표 MSE, 원자·결합 카테고리 CE, 그리고 결합 길이·각도에 대한 Huber 손실을 포함해 기하학적 스트레인을 크게 감소시킨다.
데이터 전략은 3단계로 설계되었다. 1단계에서는 1.5 B개의 소분자 컨포메이션과 2.5 M개의 저·중·고품질 복합체(BindingNet, SAIR, KIBA‑3D 등)를 이용해 화학·구조 전반에 대한 사전 지식을 학습한다. 2단계에서는 SPINDR·HiQBind 같은 고품질 코크리스털 세트를 이용해 포켓‑리간드 상호작용과 친화도 라벨을 정밀히 조정한다. 3단계에서는 프로젝트‑특화 데이터에 LoRA 파라미터 효율 파인튜닝을 적용하거나, 중요도 샘플링을 통해 친화도·ADME·합성 가능성 등 다중 목표를 실시간으로 가이드한다.
성능 평가에서 FLOWR.root는 무조건 3D 분자 생성(GEOM‑DRUGS)에서 PoseBusters‑validity 0.97, 평균 스트레인 에너지 3.6 kcal/mol 등 기존 최첨단 모델을 앞선다. 포켓‑조건 생성에서는 PB‑validity 0.99, AutoDock‑Vina 스코어도 우수했다. 친화도 예측에서는 HiQBind 테스트에서 Pearson r ≈ 0.86을 기록했으며, FEP+/OpenFE 벤치마크에서 Boltz‑2를 능가하면서 10배 이상 속도 향상을 보였다. 그러나 새로운 SAR 영역에서는 도메인 갭이 존재함을 확인하고, LoRA 파인튜닝이 PDE10A·다양한 사유재산 데이터에서 R²를 0.2~0.3 정도 상승시키는 등 적응력이 핵심임을 입증했다.
추가 실험으로 CK2α vs CLK3 선택적 생성, ERα·TYK2·BACE1 스캐폴드 확장, 그리고 QM 기반 결합 에너지와의 상관관계를 제시했다. 중요도 샘플링을 활용한 인퍼런스‑타임 스케일링은 높은 친화도 후보를 효율적으로 탐색하게 하며, 프래그먼트 성장·교체 모드에서는 지역적 앵커 배치를 통해 원하는 부위만 수정할 수 있는 정밀 제어가 가능하다. 전반적으로 FLOWR.root는 구조‑인식형 생성, 다중 친화도 예측, 불확실성 추정, 도메인 적응을 하나의 통합 프레임워크에 담아, 히트 식별부터 리드 최적화까지 전 단계에 적용 가능한 범용 기반 모델을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기