Phi Former 화합물 단백질 상호작용을 위한 계층적 쌍별 학습 모델
초록
Phi‑Former는 화합물과 단백질을 원자 수준과 기능성 모티프(기능군) 수준 두 단계로 계층화하여, 원자‑원자, 모티프‑모티프, 원자‑모티프 상호작용을 동시에 학습하는 사전학습‑미세조정 프레임워크이다. 공간적 거리 마스킹 기반의 자기지도 학습으로 세 가지 손실을 최적화하고, 결합 친화도 예측 및 π‑π 상호작용 사례에서 기존 원자‑단일 모델보다 높은 정확도와 화학적 일관성을 보인다.
상세 분석
Phi‑Former는 기존 CPI(Compound‑Protein Interaction) 예측 모델이 원자‑단위 그래프만을 이용해 화학적 현실을 충분히 반영하지 못한다는 문제점을 인식하고, 화합물과 단백질을 ‘원자 그래프’와 ‘모티프 그래프’라는 두 계층으로 동시에 표현한다. 모티프 그래프는 화합물에서는 토션 결합을 끊고, 단백질에서는 백본을 유지하면서 사이드체인만을 분리해 생성한다. 각 모티프는 구성 원자의 평균 좌표를 중심으로 하며, 초기 임베딩은 해당 원자들의 평균값으로 초기화한다.
그래프 트랜스포머를 인코더로 채택한 이유는 장거리 상호작용을 효과적으로 포착하고, 사전학습 단계에서 대규모 파라미터를 활용할 수 있기 때문이다. 위치 정보를 보존하기 위해 유클리드 거리를 가우시안 커널로 변환한 Spatial Positional Encoding(SPE)를 도입하고, 이를 어텐션 바이어스로 삽입해 회전·이동 불변성을 확보한다.
사전학습 목표는 세 가지 자기지도 손실을 최소화하는 것이다. ① 원자‑원자 거리 손실(L_V)은 원자 그래프에서 화합물‑단백질 간 거리를 마스킹하고, 마스크된 값을 예측하도록 학습한다. ② 모티프‑모티프 거리 손실(L_M)은 동일한 방식으로 모티프 그래프에서 수행한다. ③ 원자‑원자 거리 손실을 모티프 거리(L_V|M)로 조건화하는 인터‑레벨 손실은, 모티프 수준에서 얻은 거리 정보를 사전 지식으로 활용해 원자 수준 예측을 제약한다. 이 구조는 “모티프가 원자를 제한한다”는 화학적 직관을 모델에 직접 주입한다는 점에서 혁신적이다.
미세조정 단계에서는 학습된 원자·모티프 표현을 단순 선형 헤드에 연결해 결합 친화도(pK_a)를 회귀한다. 실험에서는 PDBBind 2019를 학습, CASF‑2016을 테스트셋으로 사용했으며, RMSE 1.159와 Pearson R 0.846을 기록해 기존 최첨단 모델(예: SS‑GNN, OnionNet 등)을 능가했다. 특히 사전학습 없이 동일 아키텍처만 사용했을 때보다 성능 향상이 두드러졌으며, 이는 계층적 사전학습이 CPI 특성을 효과적으로 학습한다는 증거다.
케이스 스터디에서는 π‑π 상호작용을 검증했다. 원자‑단일 모델은 두 방향족 고리 사이 거리를 6 Å로 과소평가해 상호작용을 놓쳤지만, 모티프‑제한을 적용한 Phi‑Former는 올바른 거리와 방향을 예측해 화학적 일관성을 보여준다. 이는 모델이 비공유 결합(수소 결합, π‑π 등)까지도 모티프 수준에서 인식한다는 의미다.
한계점으로는 모티프 정의가 사전 규칙(단일 토션 결합 파괴 등)에 의존한다는 점, 대규모 단백질‑복합체 데이터가 제한적이라는 점, 그리고 현재는 3D 좌표가 사전에 제공된다는 전제하에 작동한다는 점을 들 수 있다. 향후 자동 모티프 탐색, 더 큰 데이터셋 활용, 단백질‑단백질·약물‑약물 상호작용으로의 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기