전이요소에 의한 조직 및 종양 특이적 전사체 탐지 도구 SERpredict
초록
본 연구는 전이요소(TE)의 exonization으로 생성된 조직·종양 특이적 전사체를 자동으로 탐지하는 파이프라인 SERpredict를 개발하였다. 베이지안 통계 모델을 적용해 인간과 마우스 전사체 데이터를 분석한 결과, 인간에서는 알루(Alu)와 같은 영장류 특이적 전이요소가 전사체 다양성에 크게 기여함을 확인했으며, 마우스에서는 상대적으로 적은 영향을 보였다. SERpredict는 이러한 특이적 isoform을 효율적으로 식별함으로써 TE가 전사체 구조와 질병에 미치는 영향을 밝히는 유용한 도구임을 입증한다.
상세 분석
SERpredict는 전이요소에 의해 새롭게 형성된 외온(exon) 혹은 기존 외온에 삽입된 전이요소가 생성하는 전사체 변이를 조직·종양 특이성 관점에서 체계적으로 탐색한다. 핵심 알고리즘은 베이지안 통계 모델을 기반으로 하며, 각 전사체가 특정 조직 혹은 종양에서 발현될 확률을 사전 확률(prior)과 관측 데이터(likelihood)를 결합해 사후 확률(posterior)로 계산한다. 이를 위해 연구팀은 Ensembl 및 UCSC Genome Browser에서 제공하는 인간(Homo sapiens)과 마우스(Mus musculus) 전사체 어노테이션을 전이요소 위치와 매핑하고, RNA‑Seq 및 EST 데이터베이스에서 조직별 발현 정보를 추출하였다.
베이지안 프레임워크는 데이터가 희소하거나 잡음이 많을 때도 강건한 추정을 가능하게 하며, 특히 전이요소가 포함된 exon이 낮은 발현 수준을 보이는 경우에도 통계적 유의성을 확보한다. 모델은 두 단계로 구성된다. 첫 번째 단계는 “전이요소 포함 여부”를 이진 변수로 설정해 전이요소가 실제로 전사체에 포함되었는지를 판단한다. 두 번째 단계는 “조직·종양 특이성”을 다중 클래스 변수로 확장해, 각 전사체가 어느 조직 혹은 종양에서 특이적으로 발현되는지를 정량화한다.
실험 결과, 인간에서는 Alu 요소가 exonization을 통해 생성된 특이적 isoform의 비중이 전체의 약 70%에 달했으며, 이는 영장류에 특화된 전이요소가 인간 전사체 진화에 큰 영향을 미쳤음을 시사한다. 반면 마우스에서는 LINE1 및 SINE B2와 같은 포유류 보편 전이요소가 주를 이루었지만, 전체 특이적 isoform 비율은 인간의 30% 수준에 머물렀다. 또한, SERpredict가 식별한 몇몇 isoform은 기존 문헌에서 보고된 심장, 뇌, 간 등 특정 조직에 특이적으로 발현되는 사례와 일치했으며, 일부는 종양 조직(예: 유방암, 폐암)에서만 검출되어 잠재적 바이오마커 후보로서의 가치를 제시한다.
이 파이프라인은 전이요소 기반 전사체 변이를 대규모 데이터에 적용할 수 있는 확장성을 가지고 있다. 현재는 인간·마우스 2종에 국한했지만, 베이지안 모델의 파라미터만 조정하면 다른 포유류 혹은 모델 생물에도 적용 가능하다. 또한, SERpredict는 기존의 전사체 어노테이션에 누락된 exonization 사건을 보완함으로써 전사체 데이터베이스의 정확성을 높이고, 전이요소가 질병 발생에 미치는 메커니즘을 탐구하는 연구에 필수적인 도구가 될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기