구조 정렬 단백질 언어 모델
초록
**
본 논문은 사전 학습된 단백질 그래프 신경망(pGNN)과의 대조 학습을 통해 기존 단백질 언어 모델(pLM)에 구조 정보를 주입하는 두 단계 학습 프레임워크를 제안한다. 잔기 수준의 대조 학습으로 단백질 간 구조 유사성을 정렬하고, 구조 토큰 예측 과제로 단백질 내부의 물리적 정보를 보강한다. 또한 고품질 PDB 데이터를 이용해 신뢰도 높은 잔기 손실만 선택하는 모듈을 도입해 학습 효율을 높였다. ESM2·AMPLIFY에 경량 포스트‑트레이닝을 적용한 결과, DMS 피트니스 예측, 접촉 지도 예측 등 다양한 베치마크에서 일관된 성능 향상을 달성하였다.
**
상세 분석
**
이 연구는 “구조‑정렬 단백질 언어 모델(Structure‑Aligned Protein Language Model, SAM)”이라는 새로운 파인‑튜닝 방식을 제시한다. 핵심 아이디어는 두 가지 상보적인 과업을 동시에 수행함으로써 pLM이 순차적 언어 정보는 유지하면서도 구조적 지식을 습득하도록 하는 것이다.
첫 번째는 **잠재‑레벨 대조 학습(latent‑level contrastive task)**이다. 사전 학습된 pGNN(예: GearNet)에서 추출한 잔기 임베딩을 고정하고, pLM의 잔기 표현을 선형 변환 후 pGNN 임베딩과 정렬한다. 배치 내 B개의 단백질에 대해 모든 잔기 쌍을 비교함으로써 “inter‑protein” 구조 정보를 전파한다. 이때 양쪽 임베딩을 동일 차원 D로 매핑하고, 스케일 파라미터 s를 도입해 온‑디멘션 유사도 점수를 계산한다. 손실은 InfoNCE 형태로 정의되어, 같은 단백질 내의 정답 쌍을 최대화하고 다른 단백질의 부정 예시와는 구분하도록 학습한다.
두 번째는 **물리‑레벨 과업(physical‑level task)**이다. 각 잔기의 pLM 표현을 이용해 구조 토큰 z를 예측한다. 구조 토큰은 van Kempen et al.이 제안한 토크나이저를 기반으로, 잔기의 3차원 배향을 이산화한 형태이다. 이 과업은 “intra‑protein” 컨텍스트를 강화해, 대조 학습이 지나치게 전역 패턴에 치우치는 것을 보완한다. 두 과업의 손실을 동일 가중치(γ_latent = γ_physical = 0.5)로 결합하고, 기존 MLM 손실을 추가함으로써 순차적 언어 모델링 능력을 유지한다.
구조 정보의 품질이 일정하지 않은 PDB 데이터를 다루기 위해 **잔기 손실 선택 모듈(residue loss selection module)**을 설계했다. 고해상도·낮은 R‑free 값을 가진 구조를 기준 집합으로 삼아 작은 레퍼런스 모델을 학습한다. 현재 모델과 레퍼런스 모델 간의 손실 차이(Excess Loss)를 계산하고, 이 값이 큰 잔기만을 선택해 전체 손실에 포함한다. 이렇게 하면 오류가 많은 영역은 배제하고, 학습이 어려운 고품질 잔기에 집중할 수 있다.
실험에서는 ESM2(650M)와 AMPLIFY 모델에 SAM을 포스트‑트레이닝으로 적용했으며, 모델 크기(8M~650M)와 다양한 다운스트림 작업에 걸쳐 일관된 향상을 보였다. 특히 DMS 피트니스 예측에서 평균 7% 이상의 상승, CASP16 접촉 지도 예측에서 P@L이 59% 증가하는 등 구조적 이해도가 크게 개선되었다. 또한 언어 모델링 평가(pseudo‑perplexity)에서도 큰 손실 없이 유지되었으며, 구조 입력 없이도 기존 구조 기반 모델과 경쟁할 수 있음을 확인했다.
이 접근법의 장점은 경량 포스트‑트레이닝이라는 점이다. 기존 pLM을 완전히 재학습하지 않고, 몇 백만 파라미터만 추가 학습하면 되므로 계산 비용이 낮다. 또한 pGNN을 고정해 두었기 때문에 다양한 사전 학습된 그래프 모델을 손쉽게 교체·조합할 수 있다. 한계로는 pGNN의 품질에 크게 의존한다는 점과, 구조 토큰화 방식이 현재는 제한적인 표현력을 갖고 있다는 점을 들 수 있다. 향후에는 더 정교한 토크나이저와, 멀티‑스케일 그래프 임베딩을 결합해 구조‑언어 통합을 한층 강화할 여지가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기