희귀 변이의 차세대 시퀀스 데이터를 활용한 하플로타입 정확도 향상

초록

본 연구는 기존 통계적 위상결정 프로그램인 shapeIT에 페어엔드 시퀀싱 정보를 통합한 새로운 알고리즘을 제안한다. HapMap과 Complete Genomics 데이터를 이용해 검증한 결과, 전통적인 방법 대비 스위치 오류가 4~15% 감소했으며, 특히 희귀 변이와 긴 리드, 넓은 인서트 변동성을 가진 경우에 큰 향상이 관찰되었다.

상세 분석

본 논문은 인간 게놈에서 하플로타입을 정확히 재구성하는 것이 인구유전학 및 질병 연관 연구에 필수적이라는 점을 출발점으로 삼는다. 기존의 통계적 위상결정 방법은 대규모 유전체 데이터베이스를 활용해 공통 변이의 상관관계를 모델링하지만, 희귀 변이와 같은 저빈도 알릴을 정확히 구분하는 데 한계가 있다. 이를 보완하기 위해 저자들은 shapeIT의 그래프 기반 모델에 페어엔드 시퀀싱(read‑pair) 정보를 직접 삽입하는 전략을 채택하였다. 구체적으로, shapeIT이 생성한 하플로타입 그래프에서 각 개인의 유전형에 대한 가능한 하플로타입 경로를 탐색하고, 해당 경로가 실제 시퀀싱 리드와 일치하는지를 검사한다. 리드가 두 알릴을 동시에 관찰할 경우, 그 조합이 그래프 상의 경로와 충돌하면 해당 경로의 사후 확률을 낮추고, 일치하는 경로는 가중치를 높인다. 이 과정은 베이지안 프레임워크 내에서 반복적으로 수행되어, 최종적으로 가장 높은 사후 확률을 갖는 하플로타입이 선택된다.

알고리즘 구현 시 중요한 두 파라미터는 (1) 리드 길이와 (2) 인서트 크기의 분산이다. 긴 리드와 넓은 인서트 변동성은 더 많은 알릴 쌍을 동시에 포착할 수 있어, 그래프 상의 제약을 강화한다. 실험에서는 Affymetrix Axiom 칩으로 7,745,081개의 SNP를 측정한 HapMap 샘플과 Complete Genomics의 트리오 데이터를 사용했으며, 전통적인 shapeIT 대비 스위치 오류가 평균 4~15% 감소하였다. 특히 MAF가 1% 이하인 희귀 변이에서는 오류 감소율이 두 자릿수에 달했다. 이는 시퀀싱 리드가 제공하는 직접적인 연관 정보를 통해, 통계적 모델만으로는 추정하기 어려운 미세한 상관구조를 보완했기 때문이다. 또한, 다중 플랫폼(예: Illumina와 PacBio)의 혼합 사용이 인서트 크기 분포를 넓혀, 하플로타입 재구성 정확도를 더욱 향상시킬 수 있음을 시사한다. 전체적으로 이 방법은 기존 통계적 위상결정의 한계를 보완하면서도, 대규모 인구 데이터와 시퀀싱 데이터를 효율적으로 결합하는 실용적인 프레임워크를 제공한다.