단일읽기 시퀀싱을 활용한 하플레이트 기반 변이 탐지

초록

본 논문은 짧은 읽기(short‑read) DNA 시퀀싱 데이터에서 직접 하플레이트를 추출하기 위한 새로운 통계적 프레임워크를 제시한다. 베이즈 모델을 기반으로 다대립(locus) 및 개체별 복제수 차이를 동시에 고려하여, 기존의 단일염기 변이 검출기와는 달리 연속적인 염기 서열을 하나의 하플레이트 단위로 모델링한다. 이를 구현한 도구인 FreeBayes는 다중 샘플, 다중 알레일, 복제수 변이(CNV) 상황에서도 높은 민감도와 정확도를 보이며, 기존 파이프라인 대비 변이 검출 효율을 크게 향상시킨다.

상세 분석

FreeBayes가 제안하는 베이즈 프레임워크는 각 유전체 위치를 ‘하플레이트’라는 확률 변수 집합으로 정의한다. 전통적인 변이 검출기는 개별 염기 위치에서 독립적으로 알레일 빈도를 추정하지만, 이 접근법은 인접한 변이가 연관된 경우(예: 복합 변이, 인델) 정보를 손실한다. FreeBayes는 읽기 정렬 정보를 이용해 연속적인 염기 서열을 하나의 관측값으로 묶고, 이를 ‘가능한 하플레이트’ 집합에 매핑한다. 각 하플레이트는 특정 알레일 조합과 복제수(예: 0,1,2…)를 포함하며, 사전 확률은 전형적인 인간 유전체의 변이율과 복제수 분포를 기반으로 설정한다.

관측된 읽기 집합에 대한 우도는 하플레이트가 실제로 존재할 확률과 읽기 오류 모델(시퀀싱 오류, 매핑 오류)을 결합해 계산한다. 다대립 좌위에서는 여러 알레일이 동시에 존재할 수 있기에, FreeBayes는 다중 알레일을 포함하는 하플레이트를 모두 고려한다. 복제수 변이가 존재하는 경우(예: CNV 영역)에는 각 하플레이트에 복제수 파라미터를 부여하고, 베이즈 업데이트 과정에서 복제수에 대한 사후 확률을 동시에 추정한다.

알고리즘은 크게 네 단계로 구성된다. 첫째, 정렬된 BAM 파일에서 ‘활성 영역(active region)’을 탐지하고, 해당 영역 내 모든 읽기를 추출한다. 둘째, 읽기에서 관측된 염기 서열을 기반으로 가능한 하플레이트 후보를 생성한다. 셋째, 후보 하플레이트에 대해 베이즈 모델을 적용해 사후 확률을 계산하고, 사후 확률이 사전 정의된 임계값을 초과하는 하플레이트를 ‘신뢰할 수 있는 변이’로 선정한다. 넷째, 선택된 하플레이트를 VCF 형식으로 출력하면서, 각 변이에 대한 유전형(genotype)과 복제수 추정값을 함께 제공한다.

FreeBayes는 멀티샘플 공동 호출을 지원한다. 여러 샘플이 동일한 활성 영역에 매핑될 경우, 각 샘플의 읽기 집합을 하나의 공동 관측값으로 결합해 전역 하플레이트 사후 확률을 추정한다. 이 과정은 희소한 변이를 공동 검출하고, 샘플 간 변이 공유 패턴을 파악하는 데 유리하다. 또한, 파라미터 조정을 통해 최소 대립 대수(min‑alternate‑count), 최소 대립 빈도(min‑alternate‑fraction) 등을 설정해 민감도와 특이도를 조절할 수 있다.

실험 결과에서는 인간 게놈(NA12878)과 마우스 모델 데이터를 대상으로 GATK HaplotypeCaller, SAMtools/BCFtools와 비교하였다. 복합 변이와 인델이 풍부한 영역에서 FreeBayes는 재현율이 10‑15% 상승했으며, 복제수 변이가 존재하는 영역에서도 정확한 복제수 추정과 변이 검출이 가능했다. 다만, 매우 높은 복제수(>4)나 극단적인 시퀀싱 깊이에서는 사전 복제수 분포 설정에 민감하게 반응한다는 제한점이 보고되었다.

전반적으로 FreeBayes는 하플레이트 기반 접근법을 통해 짧은 읽기 데이터에서도 복합 변이와 복제수 변이를 동시에 모델링함으로써, 기존 단일염기 기반 파이프라인이 놓치기 쉬운 변이를 효과적으로 포착한다는 점에서 큰 의의를 가진다.