단백질 비공유 결합을 위한 머신러닝 인터액티브 포텐셜 PANIP 개발
초록
PANIP은 NequIP 기반의 앙상블 머신러닝 인터액티브 포텐셜로, PDB에서 추출한 단백질 파편 이합체의 비공유 상호작용을 학습한다. 다중‑충실도 활성학습(MFAL) 워크플로우를 통해 3,150만 개(전체 36.3 M 중 8.7 %)의 대표 데이터를 선정했으며, ωB97X‑D3BJ/def2‑TZVPP 수준의 정확도를 유지하면서 평균 절대 오차를 0.2 kcal/mol 이하로 낮춘다. ANI‑2x 대비 특히 전하가 있는 강한 상호작용에서 우수한 성능을 보이며, 단백질‑리간드 결합 에너지 예측에 활용 가능한 저비용 스코어링 함수로도 검증되었다.
상세 분석
본 연구는 단백질 내부 및 단백질‑리간드 사이의 비공유 상호작용(NCI)을 양자역학 수준의 정확도로 빠르게 예측할 수 있는 머신러닝 인터액티브 포텐셜(PANIP)을 제시한다. 모델은 최신 equivariant 신경망 프레임워크인 NequIP을 기반으로 하여 원자 간 거리와 각도 등 3차원 대칭성을 자연스럽게 보존한다. 데이터 구축 단계에서는 PDB에서 36.3 M개의 파편 이합체를 추출하고, 저비용 r²SCAN‑3c 계산을 초기 에너지 스크리닝에 활용하였다. 이후, 고충실도 ωB97X‑D3BJ/def2‑TZVPP 레벨의 레퍼런스 데이터를 얻기 위해 다중‑충실도 활성학습(MFAL) 전략을 적용, 높은 오류를 보이는 샘플을 반복적으로 선별·라벨링함으로써 최종적으로 3,150만 개(전체의 8.7 %)만을 고품질 학습 집합(PDB‑FRAGID)으로 축소하였다. 이 과정에서 전하를 띤 파편, 극성 파편 등 화학적으로 어려운 조합을 우선적으로 포함시켜 데이터 편향을 최소화하였다.
PANIP은 4개의 독립적인 벤치마크(저에너지 이합체, 최적화된 저에너지 이합체, CSD 기반 소분자 결정 구조, 무작위 비평형 샘플)에서 평균 절대 오차(MAE) 0.09–0.45 kcal/mol, R²≈0.999의 뛰어난 재현성을 보였다. 특히 고에너지 비평형 구조에서는 오류가 다소 증가했지만, 물리적으로 의미 있는 상호작용(에너지 < 0 kcal/mol)에서는 여전히 0.2 kcal/mol 이하의 정확도를 유지한다.
ANI‑2x와의 비교에서는 CSD 데이터셋에서 MAE가 9.26 kcal/mol에 달하는 반면, PANIP은 0.17 kcal/mol 수준으로 차이를 보이며, 전하를 포함한 강한 상호작용에서도 일관된 우수성을 확인했다. 이는 고충실도 NCI 레퍼런스를 직접 학습한 결과이며, 전하와 같은 특수한 화학적 상황을 충분히 포괄한 데이터 설계가 핵심임을 시사한다.
계산 효율성 측면에서 PANIP은 단일 CPU 코어에서 15,300개의 무작위 샘플을 6시간 1분 만에 처리했으며, 동일한 양자화학 계산은 463일 11시간이 소요되는 등 2~3 order of magnitude의 가속을 달성했다. 이러한 속도와 정확도는 단백질‑리간드 결합 에너지 추정, 대규모 NCI 패턴 탐색, 그리고 스코어링 함수로의 직접 적용을 가능하게 한다. 실제 적용 사례에서는 cation‑π, dimethyl sulfide‑aromatic 등 잘 알려진 상호작용뿐 아니라, 기존 데이터베이스에 거의 보고되지 않은 황‑아로마틱 상호작용의 공간적 선호도와 에너지 분포를 정량적으로 밝혀냈다. 전반적으로 PANIP은 단백질 환경 특화 MLIP으로서 데이터 효율성, 화학적 일반성, 계산 속도 모두에서 현존 최고의 성능을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기