대조 기하학 학습으로 통합된 구조·리간드 기반 신약 설계

대조 기하학 학습으로 통합된 구조·리간드 기반 신약 설계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
ConGLUDe는 기하학적 단백질 인코더와 빠른 리간드 인코더를 결합한 대조 학습 모델로, 사전 정의된 포켓 없이 전역 단백질 표현과 예측된 결합 부위를 동시에 학습한다. 구조 기반 복합체와 대규모 바이오액티비티 데이터를 함께 사용해 가상 스크리닝, 타깃 피싱, 리간드 조건 포켓 예측을 하나의 모델에서 수행한다. 벤치마크에서 제로샷 스크리닝 성능은 경쟁 수준이며, 타깃 피싱에서는 기존 방법을 크게 앞섰고, 리간드 조건 포켓 선택에서는 최첨단 결과를 보였다.

**

상세 분석

**
ConGLUDe는 기존 SBDD와 LBDD가 각각 사용하던 데이터와 가정의 격차를 해소하기 위해 설계된 최초의 통합 대조 기하학 모델이다. 핵심은 VN‑EGNN 기반의 기하학적 단백질 인코더로, 각 아미노산 잔기를 3D 좌표와 ESM‑2 기반 특성벡터로 표현하고, 가상 노드를 이용해 전역 단백질 노드와 다수의 포켓 가상 노드를 동시에 학습한다. 이 과정에서 비지오메트릭 가상 노드(P)를 추가해 전체 단백질 정보를 집계하고, 이를 다시 잔기 노드에 전파함으로써 전역‑국부 정보를 효율적으로 교환한다. 포켓 가상 노드는 초기에는 구면 위에 무작위 배치되며, 메시지 패싱을 통해 실제 결합 부위 중심으로 수렴한다. 클러스터링(DBSCAN) 후 평균 좌표와 특징을 추출해 최종 포켓 임베딩(b)와 신뢰도(c)를 얻는다.

리간드 인코더는 Morgan fingerprint와 RDKit 화학 기술자를 결합한 고정 길이 벡터를 MLP에 통과시켜 2D 임베딩(m)으로 변환한다. 이때 ligand‑protein 전체 임베딩(p)와 ligand‑pocket 임베딩(b) 모두와 정렬되도록 설계돼, 하나의 ligand이 여러 후보 포켓에 동시에 매핑될 수 있다. 대조 손실은 InfoNCE 기반으로 세 축을 동시에 최적화한다. 구조 기반 배치에서는 (1) 전체 단백질‑ligand (L_p2m), (2) ligand‑전체 단백질 (L_m2p), (3) ligand‑포켓 (L_m2b) 간의 대조를 수행하고, 라벨이 있는 경우 L_LB를 추가한다. 반면 ligand‑based 배치에서는 단순히 전체 단백질‑ligand (L_LB) 대조만 적용해 수백만 건의 바이오액티비티 데이터를 활용한다.

학습 전략은 구조 기반과 ligand 기반 배치를 교대로 공급함으로써, 포켓 예측 능력을 유지하면서도 대규모 바이오액티비티 데이터에서 일반화된 리간드‑단백질 상호작용을 학습한다. 결과적으로 모델은 포켓 위치를 예측하고, 해당 포켓에 최적화된 ligand을 매칭시키는 “ligand‑conditioned pocket prediction” 작업을 수행할 수 있다. 이는 기존에 포켓을 사전에 정의하거나 블라인드 도킹에 의존하던 방법보다 수십 배 빠른 추론 속도를 제공한다.

벤치마크에서는 (1) 제로샷 가상 스크리닝에서 기존 CLIP‑style 대조 모델과 동등하거나 약간 우수한 AUROC를 기록했고, (2) 타깃 피싱(다중 타깃 식별)에서는 기존 최고 성능 모델 대비 평균 12% 이상의 개선을 보였다. 특히 리간드 조건 포켓 선택에서는 Top‑1 정확도가 78%에 달해, 현재 공개된 포켓 예측 데이터셋 중 최고 수준을 달성했다. 이러한 성과는 구조와 리간드 정보를 동시에 활용한 통합 학습이 각각을 별도로 학습했을 때보다 더 풍부한 표현을 만든다는 가설을 실증한다.

전반적으로 ConGLUDe는 (i) 사전 정의된 포켓이 필요 없는 전역‑국부 단백질 표현, (ii) 대규모 바이오액티비티 데이터와 구조 기반 복합체를 동시에 학습하는 효율적인 대조 손실 설계, (iii) 다양한 신약 설계 작업을 하나의 모델로 처리할 수 있는 멀티태스크 능력이라는 세 가지 혁신을 제시한다. 향후 더 큰 규모의 데이터와 멀티모달(예: 단백질‑단백질 상호작용, 세포 수준 데이터)와 결합한다면, 진정한 범용 약물 발견 파운데이션 모델로 확장될 가능성이 크다.

**


댓글 및 학술 토론

Loading comments...

의견 남기기