단백질 결합체 설계의 새로운 패러다임: 생성 사전학습과 테스트‑타임 최적화의 통합
Proteina‑Complexa는 흐름 기반의 원자 수준 생성 모델과 대규모 합성 데이터셋 (Teddymer)을 활용해, 기존의 생성‑기반 설계와 구조 예측기‑기반 “환각”(hallucination) 방식을 하나로 결합한다. 사전학습된 생성 사전(prior)을 테스트‑타임에 인터페이스 점수와 수소 결합 에너지로 가이드함으로써, 동일한 계산 예산 하에서 기존 방법들을 크게 능가하는 성공률을 달성한다. 또한 접힘 클래스 조건화, 소분자·효소 설계 …
저자: Kieran Didi, Zuobai Zhang, Guoqing Zhou
Proteina‑Complexa 논문은 구조 기반 단백질 바인더 설계에서 기존에 존재하던 두 가지 접근법, 즉 조건부 생성 모델과 구조 예측기 기반 “환각”(hallucination) 방식을 하나의 통합 프레임워크로 재구성한다. 저자들은 먼저 최신 흐름 기반 잠재 생성 모델인 La‑Proteína를 기반으로, 부분 잠재 흐름 매칭(partially‑latent flow matching) 구조를 바인더 전용으로 변형하고, 목표 단백질을 Atom37 원자 좌표와 인터페이스 ‘핫스팟’ 토큰으로 인코딩하는 새로운 목표‑조건화 메커니즘을 도입한다. 이 메커니즘은 바인더만을 생성하면서도 목표 단백질의 구조적 정보를 충분히 활용하도록 설계되었다.
데이터 확보는 이 연구의 핵심적인 기여 중 하나이다. 실험적으로 확인된 멀티머 구조는 PDB에 약 22만 건에 불과해 대규모 학습에 한계가 있었다. 이를 극복하고자 저자들은 AlphaFold 데이터베이스(AFDB)에서 다중 도메인 단백질을 도메인 수준으로 분할하고, 도메인‑도메인 상호작용을 인위적으로 결합해 합성 디머를 만든다. 도메인 어노테이션은 TED(Encyclopedia of Domains)에서 제공되며, 공간적 근접성, CA‑T 주석 완전성, 인터페이스 pLDDT > 70, ipAE < 10, 인터페이스 길이 > 10 등의 필터링을 거쳐 최종적으로 3.5 M개의 고품질 클러스터를 확보한다. 이 데이터셋을 Teddymer라 명명하고, 기존 PDB 멀티머와 결합해 네 가지 학습 데이터(모노머 클러스터, Teddymer 디머, PDB 멀티머, PLINDER 소분자‑단백질 복합체)를 사용해 단계적 사전학습을 수행한다.
학습된 베이스 모델은 이후 테스트‑타임에 다양한 스케일링 기법을 적용한다. 베스트‑오브‑N 샘플링은 여러 독립적인 생성 경로 중 가장 높은 인터페이스 점수를 가진 후보를 선택하고, 빔 서치는 후보들을 트리 형태로 확장하면서 인터페이스 신뢰도와 수소 결합 에너지를 보상으로 사용해 경로를 재가중한다. Feynman‑Kac 스티어링과 몬테카를로 트리 탐색은 확률적 경로를 미분 가능한 보상 함수와 결합해 효율적인 탐색을 가능하게 한다. 이러한 테스트‑타임 최적화는 기존 환각 방식이 구조 예측기 점수만을 직접 최적화하던 방식과 달리, 사전학습된 생성 사전을 활용해 탐색 공간을 크게 축소한다.
성능 평가는 세 가지 주요 베치마크에서 이루어졌다. 첫째, 단백질‑단백질 바인더 설계에서는 인터페이스 pLDDT와 ipTM 기준을 만족하는 비율이 기존 생성 모델(RFDiffusion 등) 대비 2‑3배, 환각 모델(BindCraft 등) 대비 1.5‑2배 향상되었다. 둘째, 소분자‑단백질 결합 설계에서는 PLINDER 데이터셋 기반의 성공률이 45 %에서 68 %로 상승했으며, 특히 인터페이스 수소 결합 최적화를 통해 결합 친화도가 크게 개선되었다. 셋째, 효소 설계 벤치마크에서는 목표 촉매 부위에 정확히 배치된 바인더를 생성하는 비율이 기존 최고 성능을 30 % 이상 초과했다.
추가 실험으로는 접힘 클래스(α‑헬릭스, β‑시트, 혼합) 조건화를 통해 바인더 구조 다양성을 조절하는 방법을 제시했으며, 이는 기존 모델이 주로 α‑헬릭스 형태에 편중되는 문제를 해결한다. 또한, 바인더 설계 초기 단계에서 생성 모델 샘플을 사용해 환각 최적화를 시작함으로써 수렴 속도가 평균 40 % 가량 빨라지는 효과를 확인했다.
결론적으로, Proteina‑Complexa는 대규모 사전학습 데이터와 흐름 기반 원자 수준 생성 모델을 결합하고, 테스트‑타임에 물리‑생물학적 보상을 이용해 효율적으로 탐색함으로써, 현재까지 가장 높은 인‑실리코 성공률을 달성한다. 이 접근법은 향후 신약 개발, 바이오센서 설계, 맞춤형 효소 엔지니어링 등 다양한 응용 분야에 바로 적용 가능할 것으로 기대된다. 저자들은 코드, 모델 가중치, Teddymer 데이터셋을 공개하여 연구 커뮤니티의 재현성과 확장을 지원한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기