“단백질 진화의 타임라인: 접힘이 진화를 재현한다”

2026년 02월 23일

읽는 시간: 9 분

...

📝 Abstract

Introduction: While the origin and evolution of proteins remain mysterious, advances in evolutionary genomics and systems biology are facilitating the historical exploration of the structure, function and organization of proteins and proteomes. Molecular chronologies are series of time events describing the history of biological systems and subsystems and the rise of biological innovations. Together with time-varying networks, these chronologies provide a window into the past. Areas covered: Here, we review molecular chronologies and networks built with modern methods of phylogeny reconstruction. We discuss how chronologies of structural domain families uncover the explosive emergence of metabolism, the late rise of translation, the co-evolution of ribosomal proteins and rRNA, and the late development of the ribosomal exit tunnel; events that coincided with a tendency to shorten folding time. Evolving networks described the early emergence of domains and a late big bang of domain combinations. Expert opinion: Two processes, folding and recruitment appear central to the evolutionary progression. The former increases protein persistence. The later fosters diversity. Chronologically, protein evolution mirrors folding by combining supersecondary structures into domains, developing translation machinery to facilitate folding speed and stability, and enhancing structural complexity by establishing long-distance interactions in novel structural and architectural designs.

💡 Analysis

1. 연구 배경 및 의의

단백질·프로테옴 진화는 “시간에 따른 사건들의 연속”이라는 관점에서 접근해야 한다는 점을 강조한다.
기존의 정적 분류(예: SCOP, CATH)와 달리 시간축을 도입한 연대기와 동적 네트워크를 결합함으로써, ‘언제·어디서·어떤 메커니즘으로 새로운 구조가 등장했는지를 정량적으로 파악한다.
이는 진화생물학과 시스템생물학을 연결하는 교량 역할을 하며, “접힘이 진화를 재현한다”는 가설을 실험·이론적으로 검증할 수 있는 프레임워크를 제공한다.

2. 주요 방법론

방법	핵심 내용	기대 효과
분자 연대기 구축	Phylogeny‑based reconstruction of structural domain families (e.g., SCOP superfamilies)	도메인 출현 시점과 확산 경로를 시계열 데이터로 변환
시간‑가변 네트워크 분석	도메인·도메인 조합을 노드·엣지로 모델링, 네트워크 성장 패턴 추적	초기 ‘핵심 도메인’ vs. 후기 ‘조합 빅뱅’ 구분
접힘 속도 추정	최소‑좌절 원리(minimum frustration)와 실험적 folding‑unfolding rate 데이터 통합	접힘 속도와 진화 시기의 상관관계 검증
리보솜 출구 터널 구조 비교	세균·고세균·진핵의 터널 직경·구조 차이 분석	번역‑접힘 상호작용이 진화에 미친 영향 파악

3. 핵심 발견

대사·번역 시스템의 시계열 차이
- 대사 관련 도메인은 3.8–2.5 Gya에 급격히 등장, 반면 번역 관련 도메인은 2.5–1.5 Gya에 늦게 등장한다.
- 이는 초기 생명체가 대사 네트워크를 먼저 구축하고, 이후 번역 기계가 이를 최적화·가속화했음을 시사한다.
접힘 속도와 진화적 최적화
- 3.8–1.5 Gya 구간에 folding speed가 지속적으로 증가했으며, 이는 ‘빠른 접힘 → 높은 내구성’ 전략이 초기 단백질 집단에 선택되었음을 의미한다.
- 1.5 Gya 이후 다중 도메인 단백질이 급증하면서 접힘 속도는 다소 감소하고, 대신 복합적 장거리 상호작용이 강조된다.
리보솜 출구 터널의 구조적 진화
- L4·L22 루프에 의한 중간 협착부가 고세균·진핵에서 더 좁아져, **코트랜슬레이셔널 폴딩(co‑translational folding)**을 정밀하게 조절한다.
- 이는 **‘번역‑접힘 연계’**가 진화적 혁신을 촉진한 메커니즘으로 해석된다.
도메인 조합의 ‘빅뱅’
- 네트워크 분석에서 도메인 조합 수가 1.5 Gya 이후 급격히 폭발하는 현상이 관찰된다.
- 이는 ‘채용(recruitment)’ 과정—새로운 도메인을 기존 네트워크에 끌어들여 기능적 다양성을 확대하는 과정—이 진화의 주요 동력임을 뒷받침한다.

4. 이론적 함의

접힘‑진화 동시성 모델:
- 접힘은 구조적 안정성을, 채용은 기능적 다양성을 각각 담당한다.
- 초기 단백질은 짧고 빠른 접힘을 최우선으로 하여 생존에 유리했으며, 이후 다중 도메인·복합체 형성을 통해 새로운 기능을 획득했다.
‘원시 접힘 원리’와 ‘진화적 최적화’: 최소‑좌절 원리가 고대 단백질에도 적용되며, 진화 과정에서 접힘 경로 자체가 재설계된다는 점을 제시한다.

5. 실험·데이터적 한계

시간 추정 불확실성: 화석·지질 연대와 달리 분자 연대기는 시계열 모델링 가정에 크게 의존한다.
접힘 속도 측정: 현재는 in‑vitro 실험 데이터에 기반하므로, 세포 내 코트랜슬레이셔널 환경을 완전히 반영하지 못한다.
네트워크 구축: 도메인 조합 데이터는 주로 모델 유기체(E. coli, S. cerevisiae 등)에서 추출되었으며, 다양한 미생물군에 대한 포괄성이 부족하다.

6. 향후 연구 방향

고대 단백질 재구성(ancestral protein resurrection)과 실시간 접힘 측정을 결합해, 연대기상의 접힘 속도 변화를 직접 검증.
다중 오믹스 통합(genomics, transcriptomics, proteomics, interactomics)으로 도메인‑조합 네트워크를 전생물군에 확대 적용.
리보솜 터널 구조 변이와 코트랜슬레이셔널 폴딩 효율 사이의 인과관계를 Cryo‑EM + 시뮬레이션으로 정량화.
진화 시뮬레이션(e.g., Wright‑Fisher, agent‑based)에서 접힘 속도와 채용 메커니즘을 파라미터화하여, 가설 검증을 위한 가상 진화 실험 수행.

7. 결론

이 논문은 시간축을 도입한 구조‑기능 연대기와 동적 네트워크를 통해, “단백질 접힘이 진화를 재현한다”는 강력한 가설을 제시한다. 접힘 속도의 진화적 최적화와 도메인 채용의 급증이라는 두 축이 단백질·프로테옴 복잡성을 단계적으로 구축했으며, 이는 번역 기계와 리보솜 출구 터널의 구조적 진화와도 밀접히 연결된다. 향후 실험적 재구성과 고해상도 시뮬레이션을 통해 이 모델을 검증·보완한다면, 단백질 진화의 ‘시간·구조·기능’ 삼위일체를 완전하게 이해하는 데 큰 진전을 이룰 수 있을 것이다.

🇺🇸 Read in English

📄 Content

단백질체는 유기체의 게놈에 암호화된 모든 단백질을 포함하는 전체 집합을 의미한다. 이러한 잠재적인 유전자 산물 집합은 게놈 서열로부터 추론될 수도 있고, 실험적으로 규명될 수도 있다[1]. 예를 들어, 인간 게놈에 대한 수천 건의 심층 RNA‑시퀀싱 실험을 종합한 유전체 카탈로그는 약 42 000개의 유전자로부터 약 320 000개의 전사체가 암호화되어 있으며, 그 중 약 20 000개가 단백질로 번역된다는 사실을 밝혀냈다[2]. 그러나 모든 유전자가 특정 시점이나 환경 조건에서 세포·조직·유기체에 의해 발현되는 것은 아니다. 12 000개 이상의 인간 유전자로부터 201개의 정상 인간 조직 샘플을 대상으로 수행한 질량 분석법에 의한 단백질 수준 측정 결과, 전체 단백질의 약 85 %가 모든 조직에서 검출되었다[3]. 이러한 공통 단백질들의 상대적 풍부도와 소수 단백질 집합의 존재·부재는 여러 조직이 상호작용해야 하는 생물학적 과정들을 설명하는 데 도움을 주었다. 조직 특이적인 효소 분포는 대사 반응의 협조적 제어를 드러냈으며, 조직에 풍부한 단백질은 유전 질환의 표현형에 대한 통찰을 제공한다. 질량 분석법을 이용한 측정은 전례 없는 정량적 세부 정보를 제공함으로써, 세포 부피 단위당 단백질 수를 추정하도록 재보정될 수 있다[4]. 다양한 유기체의 세포에는 입방 마이크론당 약 2 ~ 4 백만 개의 단백질이 존재한다. 전형적인 박테리아(예: Escherichia coli)는 약 300만 개의 단백질을, 전형적인 포유류 세포는 10억 개 이상, 즉 4 자리 수 차이로 더 많은 단백질을 포함한다. 이러한 현실은 세포 내 분자 환경이 얼마나 복잡하고 붐비는지를 강조한다.

대부분의 단백질은 구조화된 형태와 본질적으로 유연한 형태를 동시에 가지고 있다. 이들의 폴리펩티드 사슬은 원자 수준의 3차원(3D) 구조로 접히며, 구조·기능·진화적 모듈을 중심으로 조직된다. 이러한 모듈은 다양한 분자적 맥락에서 반복적으로 나타난다. 예를 들어 인간 게놈은 약 1 500개의 서로 다른 접힌 구조 조합을 구현한다[5]. 반대로, 상당수의 단백질은 전형적인 구조를 결여한다. 이들은 내재적 무질서(intrinsically disordered proteins, IDP) 로, 폴리펩티드 사슬의 내부 자유도에 큰 제약이 없는 분자를 의미한다. 무질서는 구조화된 단백질 안에서도 내재적 무질서 영역(intrinsically disordered regions, IDR) 형태로 존재한다[6]. 이러한 영역은 무작위 코일, 용융 구형체(molten globule), 혹은 유연한 연결고리와 유사한 고동적인 콘포메이션을 보이며, 종종 진화적으로 보존되고 분자 인식·조절·신호 전달에 필수적이다[7]. 고도화된 계산 방법을 이용한 대규모 단백질 모듈·무질서 조사에서는 단백질 세계를 분류하기 위한 택소노미가 구축되었으며, 유기체 내 단백질 구조와 무질서의 분포는 프로테옴의 기원과 진화를 이해하는 데 필수적인 도구가 된다.

본 논문에서는 진화 유전체학과 시스템 생물학의 최신 발전이 어떻게 단백질 및 프로테옴의 기원·진화를 밝히는 데 기여하고 있는지를 탐구한다. 먼저 기존에 리뷰된 바[8,9]를 넘어 단백질 구조 복잡성을 다룬다. 단백질은 다층적인 구조 조직을 갖는 고도로 정돈된 존재이며, 이러한 구조는 매우 다양하고 포괄적인 분류 체계의 대상이 되어 왔다. 우리는 단백질 모듈이 어떻게 구조화되고, 진화하면서 복잡한 프로테옴에 퍼져 나가는지를 연대기적으로 서술한다. 궁극적인 목표는 지구상에서 일어나는 분자적 출현·다양화 과정을 해석할 수 있는 비판적 사고를 촉진하는 것이다.

1. 단백질은 나노입자와 같은 생체 고분자

전형적인 5 ~ 500 kDa 단백질은 직경이 2 ~ 10 nm에 이른다[10]. 이들은 하나 이상의 비교적 긴 폴리펩티드 사슬이 구형, 섬유형, 혹은 막형으로 접힌 형태를 취한다. ‘단백질(protein)’이라는 명칭은 그리스어 **πρῶτος(prōtos, “첫 번째”)**와 **πρῶτεος(prōteios, “원시적인”)**에서 유래했으며, 이는 단백질이 생명의 초기 단계에서부터 존재했음을 시사한다. 폴리펩티드는 아미노산이 펩타이드 결합으로 연결된 선형 이종중합체이며, 리보솜에 의해 합성된 대부분의 단백질은 20개 이상의 아미노산 잔기로 이루어진다. 짧은 사슬은 주로 비리보솜성 단백질 합성효소(NRPS)에 의해 합성되며 ‘펩타이드(peptide)’라 불린다. 현재 알려진 폴리펩티드 길이는 수십 개에서 수천 개에 이르며, 고고학적 평균값은 고세균 329, 박테리아 365, 진핵생물 532 아미노산이다[14]. 작은 단백질은 게놈 주석에서 종종 간과되었으며, 지금까지 보고된 가장 짧은 단백질은 11 아미노산으로 구성된 Tal 단백질(초파리 발달에 관여)이고, 가장 큰 것은 34 350 아미노산에 달하는 근육 티틴이다[15]. 단백질을 구성하는 기본 단위는 20가지 표준 L‑α‑아미노산(셀레노시스테인·피로리신을 포함)이며, 이는 중앙 백본에 다양한 측쇄를 제공해 크기·극성·전하·소수성 등 물리화학적 특성을 다양화한다. 비리보솜성 펩타이드는 500여 종류 이상의 비표준 단량체(β‑아미노산, 메틸화·하이드록실화·D‑형 아미노산, 지방산 등)를 사용한다[16].

2. 단백질이 수행하는 생물학적 기능

단백질은 세포의 모든 생물학적 기능을 담당한다. 효소 활성을 매개하고 물질 운반을 수행하며, 유전자 발현·막 수송·세포 신호·접착·면역 반응·세포 주기 등 수많은 과정을 조절한다. 또한 세포 골격 역할을 수행해 구조·기계적 기능을 제공한다. 이러한 기능은 Gene Ontology (GO) 컨소시엄이 제공하는 분자 기능(mf), 생물학적 과정(bp), 세포 구획(cc) 주석을 통해 체계적으로 정리된다[18]. 단백질 기능은 주로 결합 부위에 의해 매개되며, 이는 작은 리간드·큰 리간드 모두와 특이적으로 상호작용한다. 최근 원자 수준의 단백질·소분자 상호작용 조사에서는 상호작용 유형, 기하학, 빈도 등을 정량화해 기존의 결합 규칙을 재확인하고 새로운 유형을 발견하였다[19]. 단백질‑단백질 상호작용 데이터베이스는 실험적·예측적 상호작용을 통합해 기능 해석을 돕는다[20]. 촉매 부위와 전일체(allosteric) 조절 메커니즘은 특히 도전적인 연구 주제이다. **Mechanism and Catalytic Site Atlas (M‑CSA)**에 등재된 촉매 잔기는 고도로 보존되며 제한된 수의 촉매 기능을 수행한다[21]. 이러한 정보를 통해 돌연변이가 효소 기능·진화에 미치는 영향을 이해할 수 있다. 전일체 조절은 효능분자가 활성 부위와 멀리 떨어진 부위에 결합함으로써 단백질 활성을 제어한다[22]. 최근 E. coli LacI 억제단백질을 대상으로 한 대규모 실험‑계산 연구에서는 10⁵개의 변이형에 대한 용량‑반응 곡선을 정량화하고 신경망 모델 예측과 비교함으로써, 거의 무시되는 아미노산 치환조합이 미치는 효과까지 포착하였다[23,24].

3. 폴리펩티드 사슬의 ‘오리가미’ – 단백질 접힘

단백질 구조의 근본은 선형 폴리펩티드 사슬이 3차원 원자 배열이라는 ‘오리가미’ 형태로 접히는 과정이다. 접힘은 잔기의 에너지 최소화, 극성 그룹의 수소 결합 최적화, 소수성 잔기의 내부 매몰 등을 목표로 한다. 이 과정은 펀넬 에너지 랜드스케이프(funneled energy landscape) 모델로 설명되며, 최소 좌절 원칙(minimal frustration) 하에 빠르게 네이티브 콘포메이션에 도달한다[25]. 동일한 폴드 패밀리 내 단백질은 진화적 기원과 무관하게 비슷한 접힘 속도를 보이며, 열역학적 안정성 차이는 풀림 속도 차이로 나타난다. 실제로 다양한 열역학적 안정성을 가진 티오레독신 변이체들은 비슷한 접힘 속도를 보였지만, 풀림 속도는 3 오더의 차이를 보였다[26]. 흥미롭게도, 3.8 ~ 1.5 억 년 전(Gya) 사이에 폴드 패밀리의 접힘 속도가 증가했다는 증거가 있다[27]; 이는 초기 단백질 구조가 빠른 접힘을 위해 최적화되었으며, 다도메인 단백질이 등장하면서 1.5 Gya 이후에는 접힘 속도가 다소 감소했음을 시사한다.

접힘은 ‘폴돈(foldon)’이라 불리는 약 20잔기의 작은 빌딩 블록이 비동기적으로 형성·소멸하면서 진행된다[28]. 이들 폴돈은 짧은 α‑헬릭스·β‑턴·굽힘을 반복적으로 만들고, 이어서 장거리 상호작용이 형성돼 β‑스트랜드·브리지·시트를 구축한다. 이러한 단계적 경로는 자유 에너지 지형을 네이티브 상태로 안내한다. 펄스 라벨링 질량 분석법 등 첨단 실험은 폴돈 간 협동을 뒷받침한다[29]. 또한, 공번역(co‑translational) 접힘은 리보솜 내부에서 시작된다. 리보솜 출구 터널(길이 ~ 80‑100 Å, 직경 ~ 10‑20 Å) 안에서 α‑헬릭스·헤어핀·소규모 α‑도메인이 엔트로피적으로 안정화된다[30,31]. 리보솜 표면과 동반된 샤페론(chaperone) 효과는 접힘 효율을 높이지만, 번역 속도·동의어 코돈 사용 등에 따라 달라진다[32]. N‑니트로실화·S‑글루타티올화와 같은 공유 결합 변형도 출구 터널 내부에서 비정상적인 이황화 결합을 형성한다[33]. 폴리펩티드가 터널 베스티뷸에 도달하면 3차원 구조를 획득하고, 이어서 4차원 복합체를 형성한다[34]. 현재도 리보솜 표면이 접힘에 미치는 구체적 메커니즘과, 길이에 따른 자유 에너지 지형이 번역 동역학·샤페론 효과와 어떻게 상호작용하는지는 활발히 연구 중이다. 특히, 리보솜 단백질 L4·L22의 루프가 터널 중간을 좁혀 상부·하부 구역을 구분한다[35]; 진핵·고세균 하부 터널은 세균보다 더 좁아, 이 차이가 이후 논의에 영향을 미친다.

4. 다층적 조직 구조

단백질은 1차 구조(서열) → 2차 구조(국부 폴딩) → 3차 구조(도메인·전체 접힘) → 4차 구조(복합체) 라는 다층적 조직을 가진다(그림 1A).

1차 구조는 폴리펩티드의 아미노산 서열을 정의한다.
2차 구조는 α‑헬릭스와 β‑스트랜드와 같은 규칙적인 국소 구조를 만든다. α‑헬릭스는 3‑5잔기 간에 C=O와 N‑

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

“단백질 진화의 타임라인: 접힘이 진화를 재현한다”

📝 Abstract

💡 Analysis

1. 연구 배경 및 의의

2. 주요 방법론

3. 핵심 발견

4. 이론적 함의

5. 실험·데이터적 한계

6. 향후 연구 방향

7. 결론

📄 Content

1. 단백질은 나노입자와 같은 생체 고분자

2. 단백질이 수행하는 생물학적 기능

3. 폴리펩티드 사슬의 ‘오리가미’ – 단백질 접힘

4. 다층적 조직 구조

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 의의

2. 주요 방법론

3. 핵심 발견

4. 이론적 함의

5. 실험·데이터적 한계

6. 향후 연구 방향

7. 결론

📄 Content

1. 단백질은 나노입자와 같은 생체 고분자

2. 단백질이 수행하는 생물학적 기능

3. 폴리펩티드 사슬의 ‘오리가미’ – 단백질 접힘

4. 다층적 조직 구조

검색 시작

검색 결과 없음