결합 부위의 복합 구조 모티프를 통한 단백질 기능 규명
초록
본 연구는 PDB에 존재하는 모든 리간드 결합 부위를 원자 수준에서 전면 비교하여 재현되는 ‘초기 모티프’를 정의하고, 이들을 조합해 ‘복합 모티프’를 만든다. 복합 모티프 간 유사도는 단백질 서열 유사도나 개별 결합 부위 유사도보다 기능적 유사성을 더 잘 예측한다. 또한 복합 모티프들을 기능별로 통합해 ‘메타‑복합 모티프’를 도출함으로써, 전통적인 서열 클러스터보다 생물학적 과정의 내부 구조를 풍부하게 설명한다.
상세 분석
이 논문은 단백질‑리간드 상호작용을 원자 수준에서 정량화하려는 시도로, 기존의 서열 기반 기능 예측이 갖는 한계를 구조학적으로 보완한다는 점에서 의미가 크다. 먼저 저자들은 PDB에 등재된 197,690개의 단백질 서브유닛에서 5 Å 이내에 존재하는 모든 리간드(소분자, 단백질, 핵산)와의 접촉 원자를 결합 부위로 정의하고, GIRAF라는 고속 구조 검색 엔진을 이용해 비‑중복적인 전부 대 전부 비교를 수행했다. 이 과정에서 비‑중복 클러스터링을 적용해 각각 최소 10개의 멤버를 가진 5,869개의 소분자, 7,678개의 단백질, 398개의 핵산 결합 부위 클러스터를 도출했으며, 이를 ‘초기 모티프(elementary motif)’라 명명한다. 초기 모티프는 결합 부위의 원자 배열만을 기반으로 하며, 결합 파트너의 화학적 정체성은 포함하지 않는다.
다음 단계에서는 각 서브유닛이 포함하는 초기 모티프들의 집합을 ‘복합 모티프(composite motif)’로 정의한다. 복합 모티프는 5,738가지가 확인되었으며, 하나의 복합 모티프는 1~20개의 초기 모티프를 포함한다. 흥미롭게도 전체 복합 모티프 중 약 ⅓은 단일 초기 모티프만을 포함하고, 90% 이상이 5개 이하의 초기 모티프 조합으로 이루어진다. 복합 모티프 간 유사도는 공유된 초기 모티프 비율로 측정했으며, 이는 서열 유사도와는 낮은 상관관계를 보였다. 즉, 서열이 크게 달라도 동일한 초기 모티프 조합을 공유할 수 있음을 의미한다.
기능적 연관성을 검증하기 위해 UniProt의 키워드 기반 기능 정의와 복합 모티프 유사도를 Jaccard 지수로 비교하였다. 결과는 복합 모티프 유사도가 높을수록 기능 유사성도 높아지는 경향을 보였으며, 이는 서열 유사도나 개별 결합 부위 유사도보다 더 강한 상관관계를 나타냈다. 특히 복합 모티프가 두 개 이상의 초기 모티프를 포함할 경우, 기능 예측 정확도가 더욱 향상되는 것으로 나타났다. 반대로, 복합 모티프가 하나의 초기 모티프만으로 구성된 경우는 기능 다양성이 제한적이었다.
또한 저자들은 복합 모티프를 기능별로 통합해 ‘메타‑복합 모티프(meta‑composite motif)’를 정의하였다. 메타‑복합 모티프는 특정 생물학적 과정(예: 대사 경로, 신호 전달 등)을 시간에 독립적인 다이어그램 형태로 표현하며, 동일한 과정에 참여하는 여러 단백질의 복합 모티프 조합을 한눈에 보여준다. 이를 통해 전통적인 서열 클러스터링이 놓치기 쉬운 과정 내의 구조적 다양성과 상호작용 네트워크를 상세히 파악할 수 있다.
전반적으로 이 연구는 원자 수준의 결합 부위 구조를 체계적으로 군집화하고, 그 조합을 통해 단백질 기능을 보다 정밀하게 예측할 수 있음을 입증한다. 특히, 복합 모티프와 메타‑복합 모티프 개념은 기능적 다형성, 동형성, 그리고 상호작용 네트워크를 구조적으로 해석하는 새로운 프레임워크를 제공한다는 점에서 향후 구조 기반 기능 예측 및 약물 설계에 큰 파급 효과를 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기