GPCR 모듈레이터 탐색을 위한 딥러닝 필터 GPCR 필터
초록
본 논문은 90 000여 개의 실험 검증 GPCR‑리간드 쌍을 기반으로, ESM‑3 단백질 언어 모델과 그래프 신경망을 결합한 GPCR‑Filter를 제안한다. 교차‑어텐션 융합 구조를 통해 수용체 서열과 리간드 구조를 동시에 학습하여, 기존 DTI 모델보다 높은 정확도와 일반화 능력을 보인다. 특히 5‑HT₁A 수용체에 대한 마이크로몰레 수준의 새로운 작용제 4종을 실험적으로 확인함으로써, 복잡한 알로스틱 활성 예측에 유효함을 입증한다.
상세 분석
GPCR‑Filter는 최신 단백질 언어 모델인 ESM‑3를 활용해 GPCR 서열을 per‑residue 임베딩으로 변환하고, 리간드 SMILES를 그래프 신경망(GNN)으로 인코딩한다. 두 임베딩은 Transformer‑style 디코더의 ligand‑to‑protein cross‑attention 모듈을 통해 결합되며, 이는 리간드 토큰을 질의(query)로, 수용체 잔기를 키(key)와 값(value)으로 사용해 상호작용 가능성을 학습한다. 이 설계는 기존 DTI 모델이 주로 결합 친화도만을 예측하는 데 반해, 알로스틱 활성과 같은 기능적 효과를 포착하도록 설계되었다는 점이 핵심이다.
데이터셋 구축 단계에서는 GPCRdb와 GtoPdb에서 인간 GPCR와 리간드 정보를 수집해 91 396개의 양성 쌍을 확보하고, 모든 가능한 GPCR‑리간드 조합을 열거한 뒤 양성을 제외하고 균형 잡힌 1:1 비율의 음성 샘플을 무작위 추출해 학습에 사용하였다. 이는 공개된 음성 라벨이 부족한 상황에서 현실적인 네거티브 데이터를 생성한 전략으로, 모델이 과도한 과적합을 피하고 일반화 능력을 키우는 데 기여한다.
평가 프로토콜은 세 가지로 구분된다. (1) Random split은 데이터 전체를 무작위로 섞어 인‑디스트리뷰션 성능을 측정하고, (2) Intra‑target split은 동일 GPCR에 대해 훈련·테스트 리간드를 다르게 배치해 미지의 리간드에 대한 예측력을 검증한다. (3) Inter‑target split은 훈련과 테스트에 전혀 겹치지 않는 수용체 집합을 사용해 완전한 전이 학습 능력을 평가한다. GPCR‑Filter는 Random split에서 AUC 98.93%, AP 98.70%라는 거의 천장에 가까운 성능을 보였으며, Intra‑target에서도 AUC 97.16%, AP 96.86%를 유지했다. 특히 Inter‑target에서는 AUC 73.44%, AP 64.04%로, 기존 ConPLex와 TransformerCPI2.0이 50% 이하에 머물던 것을 크게 앞섰다. 이는 수용체 서열의 미세한 변이와 리간드 화학적 특성을 동시에 포착한 결과라 할 수 있다.
해석 측면에서는 두 가지 접근을 사용했다. 첫째, 각 GPCR별로 알려진 리간드의 ECFP4 피처를 평균해 화학적 프로파일을 만든 뒤, Tanimoto 거리 기반 군집화를 수행했다. 이때 화학적 프로파일이 유사한 GPCR들이 군집을 이루는 것을 확인했으며, 이는 모델이 화학적 패턴을 공유하는 수용체군에 대해 전이 학습이 가능함을 시사한다. 둘째, cross‑attention 가중치를 분석해 고위험 잔기가 실제 결정구조의 결합 포켓에 위치하는지를 검증했다. DRD2(PDB 9bsb)와 P2Y₁₄(PDB 9jcl) 두 사례에서 Top‑20 어텐션 잔기 중 6~8개가 5 Å 이내의 포켓 잔기와 일치했으며, 이는 모델이 단순 메모리를 넘어 실제 결합 부위를 학습했음을 보여준다.
실험 검증에서는 1.6 M개의 ChemDiv 화합물을 5‑HT₁A 수용체의 SEP‑363856 포켓에 도킹한 뒤, 상위 8 705개를 GPCR‑Filter로 재스코어링했다. 예측 확률 p > 0.5인 97개를 선정하고 52개를 실제 구매·테스트한 결과, 4개의 새로운 작용제(D24, D29, D34, D47)가 cAMP GloSensor assay에서 5‑HT와 유사한 활성(높은 Emax)과 약간 낮은 효능(EC₅₀ 상승)을 보였다. 이는 모델이 기능적 활성(agonism)까지 예측할 수 있음을 실증한다.
전반적으로 GPCR‑Filter는 (1) 대규모 고품질 GPCR‑리간드 데이터셋 구축, (2) 최신 언어 모델과 GNN을 결합한 하이브리드 아키텍처, (3) 교차‑어텐션 기반 수용체‑리간드 상호작용 학습, (4) 다양한 데이터 분할을 통한 견고한 일반화 검증, (5) 실험적 검증을 통한 기능적 유효성 입증이라는 5가지 핵심 요소를 갖춘 종합적인 프레임워크이다. 향후 구조 기반 정보와 결합하거나, 베타‑아라키드와 같은 비정형 리간드까지 확장한다면, GPCR‑Filter는 복잡한 알로스틱 신호 전달 메커니즘을 탐색하는 데 있어 AI‑지원 약물 설계의 표준 도구로 자리매김할 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기