진화·물리 제약을 결합한 정수계획 기반 단백질 접촉 지도 예측

PhyCMAP은 서열 프로파일, 상호 진화 정보, 구조 기반 통계 잠재력 등 다양한 진화적 특징을 랜덤 포레스트로 통합해 접촉 확률을 예측하고, 물리적 제약을 수식화한 정수선형계획(ILP)으로 최적의 접촉 집합을 선정한다. 희소성 제약을 넘어 베타 시트·헬릭스·루프 등 구체적인 구조 제약을 적용함으로써, 동종 서열이 적은 경우에도 PSICOV·EvFold보다 높은 정확도와 빠른 실행 속도를 달성한다.

저자: Zhiyong Wang, Jinbo Xu

진화·물리 제약을 결합한 정수계획 기반 단백질 접촉 지도 예측
본 논문은 단백질 접촉 지도 예측을 위해 진화적 정보와 물리적 제약을 동시에 활용하는 새로운 방법인 PhyCMAP을 제안한다. 기존의 대부분 방법은 잔여쌍을 독립적으로 예측하고, 전체 지도에 대한 구조적 일관성을 무시한다. 최근 PSICOV와 EvFold와 같은 방법은 상호 진화 정보를 이용해 접촉을 예측하고 희소성 제약만을 적용했지만, 많은 동종 서열이 필요하고 물리적으로 비현실적인 접촉을 생성할 수 있다. PhyCMAP은 두 단계로 구성된다. 첫 번째 단계에서는 Random Forest(RF) 모델을 이용해 각 잔여쌍(i, j)의 접촉 확률 P_ij를 예측한다. 입력 특징은 크게 네 종류다. (1) 서열 프로파일(PSI‑BLAST), (2) 상호 정보량(MI)과 대비 MI(CMI), MI의 고차 파워(MI^k) 등 진화적 신호, (3) 구조 기반 통계 잠재력(EPAD), 2차 구조 예측(PsiPred), 동종 서열 쌍 접촉 점수(HPS) 등 비진화적 정보, (4) 아미노산 물리‑화학적 특성. 각 잔여쌍에 대해 약 300개의 피처를 계산하고, 5‑fold 교차 검증으로 최적의 RF 파라미터를 선정한다. 두 번째 단계는 정수선형계획(ILP)이다. 목표는 Σ_ij P_ij·X_ij − λ·Σ_r R_r 를 최대화하는 것으로, X_ij는 접촉 여부를 나타내는 이진 변수이며, R_r은 소프트 제약 위반 정도를 나타내는 완화 변수이다. 제약은 물리적 타당성을 보장하도록 설계되었으며, 크게 8개의 그룹으로 나뉜다. - **그룹 1(희소성 제약)**: 한 잔여가 다른 2차 구조 유형과 가질 수 있는 최대 접촉 수를 경험적 상수(예: H‑H 5, H‑E 3 등)로 제한한다. - **그룹 2(베타 스트랜드 간 접촉 수)**: 두 베타 스트랜드 사이의 접촉 수는 최소·최대값을 길이 비례식으로 제어하고, 필요 시 완화 변수(R_2, R_3)로 완화한다. - **그룹 3·4(베타 시트 기하학)**: 안티‑패럴렐·패럴렐 베타 시트에서 인접 잔여쌍의 접촉 패턴을 선형 부등식으로 강제한다. - **그룹 5(베타 스트랜드 다중 결합)**: 하나의 베타 스트랜드는 최대 두 개의 다른 스트랜드와만 베타 시트를 형성하도록 제한한다. - **그룹 6(루프 제약)**: 루프 구간의 시작·끝 잔여가 접촉할 확률은 전체의 3.4% 이하로 제한하고, 예외 경우를 위해 완화 변수(R_4)를 도입한다. - **그룹 7(알파 헬릭스 제약)**: 같은 알파 헬릭스 내에서 i와 i+2 사이의 동시 접촉을 금지한다. - **그룹 8(변수 관계 제약)**: 베타 스트랜드·헬릭스·루프 변수 간 논리적 연관성을 추가적인 선형 제약으로 구현한다. 이러한 제약들은 접촉 지도 전체가 물리적으로 가능한 형태가 되도록 강제하면서도, 소프트 제약을 통해 실제 데이터의 잡음이나 예외 상황을 유연하게 처리한다. 실험에서는 150여 개의 단백질(길이 50~400, 동종 서열 수 다양)에서 PhyCMAP이 Top‑L/10, Top‑L/5, Top‑L/2 정확도에서 PSICOV, EvFold, 그리고 최신 딥러닝 기반 방법들을 앞섰다. 특히 동종 서열이 50개 이하인 경우에도 기존 방법보다 현저히 높은 정확도를 보였으며, 이는 CMI와 MI^k 같은 고차 진화 정보를 효과적으로 활용했기 때문이다. 실행 시간 측면에서도 Random Forest 예측과 ILP 최적화가 합쳐져도 대부분의 경우 몇 분 이내에 결과가 도출되었으며, PSICOV·EvFold 대비 5~10배 빠른 속도를 기록했다. PhyCMAP은 웹 서버(http://raptorx.uchicago.edu)도 제공하여, 사용자가 PSI‑BLAST 검색 후 몇 분 내에 접촉 지도를 얻을 수 있게 했다. 저자는 이 방법이 향후 거리 제약 기반 3차원 구조 모델링(Rosetta, CNS 등)에서 더 정확한 입력을 제공함으로써 전체 구조 예측 파이프라인을 개선할 수 있을 것으로 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기