“돌연변이‑선택 역학에서 ‘준‑국소화’를 정량화하는 새로운 지표와 그 생물학적 의미”
📝 Abstract
When mutations are rampant, quasispecies theory or Eigen’s model predicts that the fittest type in a population may not dominate. Beyond a critical mutation rate, the population may even be delocalized completely from the peak of the fitness landscape and the fittest is ironically lost. Extensive efforts have been made to understand this exceptional scenario. But in general, there is no simple prescription that predicts the eventual degree of localization for arbitrary fitness landscapes and mutation rates. Here, we derive a simple and general relation linking the quasispecies’ Hill numbers, which are diversity metrics in ecology, and the ratio of an effective fitness variance to the mean mutation rate squared. This ratio, which we call the localization factor, emerges from mean approximations of decomposed surprisal or stochastic entropy change rates. On the side of application, the relation we obtained here defines a combination of Hill numbers that may complement other complexity or diversity measures for real viral quasispecies. Its advantage being that there is an underlying biological interpretation under Eigen’s model.
💡 Analysis
**
1. 연구 배경 및 문제 제기
- Eigen 모델(쿼시스페시즈 이론) 은 높은 돌연변이율 하에서 ‘에러 카타스트로피(error catastrophe)’와 ‘생존자 선택(survival of the fittest)’이라는 두 극단을 설명한다.
- 실제 바이러스 집단은 이 두 극단 사이의 중간 상태(준‑국소화) 에 머무르는 경우가 많으며, 이를 정량화할 일반적인 이론이 부재했다.
- 기존 연구는 주로 단일 피크 적합도 지형 혹은 특수한 돌연변이 매트릭스에 한정돼 있어, 복잡한 실제 지형에 적용하기 어려웠다.
2. 핵심 아이디어와 방법론
- 서프라이즈(Shannon surprisal) 속도 제한
- Ref.
📄 Content
인구유전학의 정준 모델에서는 돌연변이가 설계에 의해 거의 발생하지 않는다. 변이율이 매우 높은 경우, 즉 무성생물(특히 박테리아와 바이러스)에서 흔히 나타나는 경우에 돌연변이가 미치는 전체 동역학적 영향을 밝히는 것이 퀘이시스피시 이론[1] (에이겐의 모델 또는 에이겐‑슈스터 모델이라고도 불림)의 핵심 기여이다[2,3]. 선택만으로는 “가장 적합한 자의 생존”(survival of the fittest)이라는 결과를 초래할 수 있지만, 퀘이시스피시 이론은 변이율이 충분히 높다면 적합도가 낮은 변이체나 “형(type)”조차도 빈번한 변이를 통해 지속될 수 있음을 예측한다. 평형 상태의 개체군 구조를 퀘이시스피시(quasispecies)라고 부른다[4]. 이는 바이러스 진화를 이해하기 위한 이론적 틀을 제공했으며, 현재 바이러스학에서 “퀘이시스피시”라는 용어는 바이러스의 이질성을 널리 지칭하는 데 사용되고 있다[5,6].
덜 적합한 돌연변이체가 지속될 수 있다는 사실은 에이겐에게서 처음 제시된 것이 아니다. 크로우와 키무라가 이전에 결정론적 변이‑선택 모델을 연구한 바 있다[7]. 그러나 에이겐의 모델은 임의의 형의 수, 형의 빈도, 변이율에 대해 정의될 수 있다. 이러한 일반화 하에서는 개체군의 질량이 가장 적합한 형과 그 변이 형 사이에 임의로 분포될 수 있다. 극단적인 경우, 퀘이시스피시는 단일 형에 의해 지배될 수 있다(국소화, localization) – 이는 “가장 적합한 자의 생존”과 동일하다 – 혹은 많은 형 혹은 모든 형에 걸쳐 퍼질 수도 있다(비국소화, delocalization). 후자의 전형적인 예가 오류 재앙(error catastrophe)이다. 오류 재앙에 대한 보편적인 정의는 없지만, 일반적으로는 “오류 임계값(error threshold)”을 초과하는 경우 가장 적합한 형이 개체군에서 사라지는 (대개 급격한) 위상 전이로 이해한다[8,9]. 이 임계값을 넘으면 개체군은 적합도 풍경의 정점(peak)으로부터 완전히 비국소화된다(그림 1b). 단봉형 적합도 풍경을 가정한 이 임계값에 대한 이론적 연구가 활발히 진행되었으며[10‑12], 여기에는 부동(drift)[13‑15], 재조합[16,17], 유전자 네트워크[18,19], 그리고 상호작용(epistasis)[20]에 대한 확장이 포함된다. 오류 임계값과 보완적으로, 전체 국소화 임계값(total localization threshold)도 도출되어 개체군이 완전히 적합도 정점에 국소화되는 시점을 결정한다[21]. 퀘이시스피시 이론과 앤더슨 국소화(Anderson localization) 사이의 유사성도 논의되었다[22]. 최근에는 잡음에 의해 유도되는 “충실도 재앙(fidelity catastrophe)”이 제시되었는데, 이 경우 개체군은 항상 국소화된 상태이지만 시간이 흐름에 따라 지배 형이 전환된다[23].
이러한 연구에도 불구하고, 오류가 잦은 복제 과정에서의 국소화에 대한 이해는 결정론적 한계조차도 완전하지 않다. 오류 혹은 국소화 임계값의 구체적 값은 선택된 단순화된 풍경과 변이 체계에 따라 달라진다. 특히, 오류 임계값이 일반적으로 존재하지 않는 경우도 보고되었다[24‑28]. 또한 오류 재앙과 가장 적합한 자의 생존은 중요한 함의를 가지지만, 이는 극단적인 상황에 해당한다. 실제 오류가 잦은 개체군은 보통 “준국소화(quasilocalization)”라는 중간 상태에 머무른다. 이 상태에서는 개체군이 어느 정도 확산된 형태로, 가장 적합한 형 주변에 분포한다. 실제 바이러스 퀘이시스피시가 이러한 특성을 보이며[6,29], 그러나 이 중간 시나리오에 대한 분석적 진술은 부족하다.
준국소화는 변이와 선택 효과가 서로 균형을 이루는 상태라고 이해할 수 있다. 그러나 단봉형 풍경을 넘어 보다 구체적이고 정량적인 서술이 가능한가? 이를 위해 우리는 정보이론적 경계를 이용해 국소화 정도를 분석적으로 연구한다. 최근에는 시스템의 구체적 세부사항에 의존하지 않고 관측량의 시간 진화에 대한 속도 제한(speed limits)이 제시되었다[30‑36]. 여기서는 특히 서프라이즈(surprisal) 혹은 확률 엔트로피 변화율을 분해한 Ref.[35]의 경계를 차용한다. 이를 에이겐 모델에 적용하여, 우리는 국소화 정도와 관련된 평형 관계식을 도출한다. 이 관계식은 동역학적 파라미터 통계로부터 계산되는 “국소화 인자(localization factor)”와 생태학에서 널리 쓰이는 다양성 지표인 Hill 수(Hill numbers) 사이를 연결한다.
본 논문의 구성은 다음과 같다. 제 II절에서는 퀘이시스피시 이론(에이겐 모델)의 수식적 전개와 “유입률(influx rate)”이라는 새로운 개념을 정의한다. 또한 Ref.[35]의 서프라이즈 속도 제한을 간략히 리뷰하고, 이를 에이겐 모델에 적용해 국소화와 비국소화 속도를 식별한다. 제 III절에서는 이러한 속도의 평균 근사를 구하고, 주요 결과인 국소화 인자와 그 임계값을 포함한 평형 관계식을 도출한다. 제 IV절에서는 정보 유지에 대한 함의와, 우리의 결과를 바탕으로 제안하는 바이러스 복잡도 지수(viral complexity index)를 논의한다. 마지막으로 제 V절에서 결론을 제시한다.
그림 1에 사용된 코드와 시뮬레이션은 [37]에서 다운로드할 수 있다. 본 연구는 matplotlib[38], numpy[39], scipy[40], pandas[41,42]와 같은 오픈소스 패키지의 도움을 받았다.
1. 퀘이시스피시 이론(에이겐 모델)의 개요
우리는 이제부터 퀘이시스피시 이론, 즉 변이와 선택이 결합된 에이겐 모델을 검토한다(그림 1a). 전체(인구조사) 개체군 규모 (n_{\text{tot}}(t))가 매우 클 경우(수학적으로 (n_{\text{tot}}(t)\to\infty)), 결정론적 접근이 가능하다[43]. 형의 총 수를 (N\in\mathbb{N})이라 하고, 형 (i\in{1,\dots,N})의 성장률은 다음과 같이 주어진다[1]
[ \dot p_i(t)=\sum_{j=1}^{N}A_j Q_{ij}p_j(t)-\langle E(t)\rangle p_i(t), ]
여기서 (p_i(t))는 형 (i)의 상대 빈도(정규화된 빈도)이며, (\langle E(t)\rangle:=\sum_{i=1}^{N}\sum_{j=1}^{N}A_j Q_{ij}p_j(t))는 빈도가 1이 되도록 보정한다[44]. 여기서 “형”은 암묵적으로 뉴클레오타이드 서열(또는 하플로타입)이며, 전체 혹은 일부 유전 물질을 구성한다[45].
식 (1)에서 (A_i\in\mathbb{R})는 형 (i)의 복제율이며, 이는 일차원 “적합도 풍경(fitness landscape)”을 정의한다: (f_A:i\mapsto A_i) (그림 1b). “가장 적합한 형” 혹은 “적합도 정점”은 복제율이 최대인 형을 의미한다. 반면에
[ Q_{ij}= \text{형 }j\text{가 오류 복제 과정에서 형 }i\text{로 전환될 확률}, ]
이며 (Q_{ii})는 정확한 복제(복제 충실도, copy fidelity)를 의미한다. 변이가 무시할 수 없으므로, 복제율이 가장 높은 형이 반드시 개체군을 지배하지는 않는다. 마지막으로 (D_i\in\mathbb{R}_{\ge0})는 분해(degradation) 변수이다. 문헌에서는 보통 (D_i)를 (A_i)에 흡수시켜 무시하지만, 여기서는 완전성을 위해 유지한다.
식 (1)은 선형화될 수 있다. 성장 행렬 (W)의 원소를
[ W_{ij}=A_j Q_{ij}-\delta_{ij}D_j ]
라고 정의하면, 식 (1)의 해는 (W)의 고유벡터들의 가중합으로 표현된다[46,47]
[ \mathbf p(t)=\sum_{j}c_j e^{\lambda_j t}\mathbf h_j, ]
여기서 (c_j)는 초기조건에 의해 결정되고, (\mathbf h_j)는 고유값 (\lambda_j)에 대응하는 (j)번째 고유벡터의 (i)번째 성분을 의미한다. (W)가 비음수이며 비감축(irreducible)이라면, 즉 모든 형 (i)에서 모든 형 (j)로 가는 변이 경로가 존재한다면, Perron‑Frobenius 정리[48,49]에 의해 (W)는 양의 실수 최대 고유값 (\lambda_{\max})와 모든 성분이 양수인 오른쪽 고유벡터 (\mathbf h_{\max}=(h_{1\max},\dots,h_{N\max})^{\top})를 갖는다. 평형 정상 상태, 즉 “퀘이시스피시”는 오직 (\lambda_{\max})와 (\mathbf h_{\max})에 의해 결정된다:
[ \mathbf p^{*}= \frac{\mathbf h_{\max}}{\sum_{i=1}^{N}h_{i\max}}. ]
우리는 이러한 정상이 존재함을 Perron‑Frobenius 성질이라고 부른다. 비음수 행렬이면서 대각 원소가 음수일 수 있는 경우(예: 큰 (D_i) 때문에)에도, 비대각 원소가 모두 비음수이면(즉, Metzler 행렬[50]) Perron‑Frobenius 성질이 유지된다. 본 연구에서는 언제나 이 성질이 만족된다고 가정한다. 따라서 “소멸(extinction)”이라는 표현은 해당 형의 빈도가 매우 작아짐을 의미한다.
2. 국소화·비국소화와 서프라이즈 속도
그림 2는 평형 빈도 스펙트럼(청색 곡선)과 유입 풍경(검은 곡선)의 관계를 보여준다. 국소화된 영역에서는 개체군이 유입 풍경의 정점에 집중하고, 비국소화된 영역에서는 모든 형에 고르게 퍼진다. (B) 개체군 동역학은 (N)‑차원 초구(또는 (N)‑단순체) 위의 움직임으로 나타낼 수 있다. 여기서 (N=3)을 예시로 들었다. 각 점은 형 빈도 벡터 (\mathbf p(t)\in\mathbb{R}^{N})를 나타내며, 시간 (t)에 따라 초구 위를 이동한다. 이동 속도는 서프라이즈율 (\sigma(t))에 의해 결정되며, 이는 유입율 (\sigma_{s}(t))와 변이율 (\sigma_{\mu}(t))의 합으로
이 글은 AI가 자동 번역 및 요약한 내용입니다.