다양하고 광범위한 오염이 고속 시퀀싱 데이터의 매핑되지 않은 영역에 나타남
초록
고속 시퀀싱 실험에서 미세량의 외래 DNA 오염이 널리 존재함을 보여준다. 희석된 샘플일수록 오염 비율이 높으며, 음성 대조(블랭크) 라이브러리만으로는 저빈도 오염을 완전히 통제할 수 없다는 점을 강조한다. 이러한 오염은 최근 보고된 ‘음식 DNA가 인간 혈액에 전달된다’는 주장까지도 충분히 설명한다.
상세 분석
본 논문은 고속 시퀀싱 데이터에서 매핑되지 않은(reads that preferentially aligned to alternate genomes) 읽기들을 활용해 잠재적 오염원 종의 분포를 정량·정성적으로 분석하였다. 먼저, 다양한 공개 데이터셋(특히 단일세포 전사체 및 유전체 시퀀싱)에서 ‘비정상 매핑(reads)’을 추출하고, 이를 NCBI nt 데이터베이스와 BLAST 비교함으로써 오염 가능성이 있는 미생물·식물·동물 DNA를 식별했다. 분석 결과, 희석된 시료(예: 단일세포 라이브러리)에서는 전체 읽기 중 0.1%~1% 수준의 외래 DNA가 검출되었으며, 이는 고농도 시료에 비해 10배 이상 높은 비율이다. 특히, 4개의 독립적인 단일세포 실험에서 검출된 오염 종은 박테리아, 곰팡이, 식물, 동물 등 광범위한 계통에 걸쳐 있었다. 이는 실험실 환경(시약, 플라스틱 튜브, 공기 등)에서 유래하는 다중 오염원이 복합적으로 섞여 있음을 시사한다.
음성 대조(‘blank’) 라이브러리를 동시에 제작한 경우, 가장 빈번하게 검출되는 오염 종(예: Pseudomonas, Bacillus 등)은 효과적으로 식별되었지만, 저빈도 오염(전체 읽기 0.001% 이하)은 대조 라이브러리에서도 종종 누락되었다. 이는 오염 DNA가 실험마다 무작위적으로 섞이며, 동일 실험 내에서도 샘플 간 차이가 발생한다는 것을 의미한다. 저빈도 오염은 특히 ‘희귀 종 검출’이나 ‘외래 유전자 존재’와 같은 민감한 가설 검증에 치명적인 혼란을 초래한다.
논문은 이러한 오염 현상을 실제 사례에 적용해 검증하였다. 최근 한 연구에서는 인간 혈액에서 식품 유래 완전 유전자가 검출된다고 주장했는데, 해당 연구는 다중 복제와 조건 변화를 통해 결과의 신뢰성을 확보했다고 보고했다. 그러나 본 논문의 재분석 결과, 동일 실험에서 검출된 오염 종들의 패턴이 ‘음식 DNA’ 주장과 일치함을 보여, 오염이 충분히 대안 설명이 될 수 있음을 입증한다. 즉, 고도의 복제와 통제에도 불구하고, 저빈도 오염은 여전히 숨은 변수로 작용한다는 점을 강조한다.
결론적으로, 고속 시퀀싱 데이터 해석 시 ‘매핑되지 않은 읽기’를 무시하거나 단순히 ‘노이즈’로 치부하면, 실제 존재하지 않는 외래 DNA 신호를 과대해석할 위험이 있다. 연구자는 실험 설계 단계에서 다음과 같은 권고사항을 제시한다. 첫째, 블랭크 대조를 다중 복제하여 가능한 모든 오염원을 포괄적으로 탐지한다. 둘째, 오염 검출 파이프라인을 구축해 저빈도 읽기까지도 정량화한다. 셋째, 결과 해석 시 오염 가능성을 정량적 모델에 포함시켜 통계적 검증을 수행한다. 이러한 접근이 없을 경우, 특히 미생물 다양성, 환경 DNA, 혹은 외래 유전자 전달과 같은 민감한 분야에서 잘못된 결론에 도달할 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기