수백 종의 텐덤 반복 서열이 밝힌 새로운 중심체 진화 원리
초록
이 연구는 282종의 동물·식물 유전체에서 고복제 텐덤 반복 서열을 자동으로 탐지하고, 가장 풍부한 반복이 실제 중심체 DNA와 일치한다는 가정을 검증하였다. 대부분의 종에서 중심체에 위치한 반복은 길이와 서열이 크게 다르며, 5천만 년 이상의 진화적 거리에서도 공통된 서열 보존이 거의 없었다. 그러나 반복 단위가 다중 모노머로 구성된 고차 반복 구조가 반복적으로 등장하는 등, 진화 양상은 전반적으로 유사했다. 이러한 결과는 중심체에 텐덤 반복이 널리 존재함을 시사하며, 반복 서열이 염색체 간 동시 진화를 촉진하는 기능적 역할을 할 가능성을 제시한다.
상세 분석
본 논문은 ‘가장 풍부한 텐덤 반복이 중심체 DNA이다’라는 가정을 검증하기 위해, 공개된 차세대 시퀀싱 데이터와 자체 확보한 PacBio 롱리드 데이터를 활용하였다. 282종에 걸친 광범위한 샘플링은 동물계와 식물계 모두를 포함했으며, 각 종마다 1 kb에서 1.5 kb까지 다양한 모노머 길이를 가진 고복제 반복을 성공적으로 추출했다. 특히 PacBio 롱리드를 이용함으로써 기존 단일‑읽기 기반 방법으로는 탐지하기 어려웠던 장거리 고차 반복 구조(예: 2‑3 kb 규모의 고차 반복)를 확인할 수 있었다.
반복 서열의 서열적 유사성을 phylogenetic tree에 매핑한 결과, 약 5천만 년 이상의 분기점에서는 거의 전혀 보존되지 않았으며, 이는 중심체 DNA가 급격히 진화한다는 기존 가설을 뒷받침한다. 그럼에도 불구하고, ‘higher‑order repeat(HOR)’라 불리는 구조—여러 개의 다형성 모노머가 일정한 순서로 배열되어 큰 단위로 반복되는 형태—가 다양한 계통에서 독립적으로 나타나는 현상이 관찰되었다. 이는 중심체 반복이 단순히 무작위적 확장·수축이 아니라, 특정 구조적 제약 하에 진화한다는 중요한 시사점을 제공한다.
또한, 반복 단위의 GC 함량, AT‑rich region, 그리고 전사체와의 상관관계를 분석한 결과, 종마다 크게 다른 물리화학적 특성을 보였지만, 전반적으로 중심체에 위치한 반복은 전사 활성화와 연관된 히스톤 변형(H3K9me3 등)과 공통적으로 결합하는 경향이 있었다. 이는 반복 서열 자체가 크로마틴 구조를 형성하거나, CENP‑A와 같은 중심체 특이 단백질을 모집하는 플랫폼 역할을 할 가능성을 뒷받침한다.
마지막으로, 데이터 파이프라인은 Illumina, 454, PacBio 등 다양한 시퀀싱 플랫폼에 적용 가능하도록 설계되었으며, 반복 탐지와 정량화를 자동화함으로써 향후 미지의 종에 대한 중심체 연구를 가속화할 수 있는 기반을 마련했다. 전체적으로 이 연구는 중심체 텐덤 반복이 진화적 다양성 속에서도 구조적 일관성을 유지한다는 새로운 통찰을 제공하고, 반복 서열이 중심체 기능에 기여하는 메커니즘을 탐구하는 데 중요한 출발점을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기