인간 유전체에 침투한 마이코플라스마 유전자 또다시 발견
초록
인간 유전체 데이터베이스에 마이코플라스마 유사 서열이 섞여 있는 사례를 보고한다. 이전에 보고된 오염 EST가 상용 마이크로어레이에 포함된 것과 유사하게, 이번에는 GenBank에 등록된 DA466599 서열이 인간 유전체로 오인된 사실을 확인하였다. 이러한 ‘실리콘 장벽을 넘은’ 오염 유전자는 데이터베이스 정제와 자동 검증 시스템의 한계를 드러내며, 보다 정교한 필터링과 실험실 관리가 필요함을 시사한다.
상세 분석
본 논문은 인간 유전체 서열 데이터베이스에 마이코플라스마(특히 Mycoplasma orale와 유사한 종) 유래 DNA가 혼입된 사례를 두 번째로 제시한다. 첫 번째 사례는 EST(Expressed Sequence Tag)인 AF067918이 Affymetrix HG‑U133 plus 2.0 마이크로어레이에 포함된 것이었으며, 이는 실험실 오염이 데이터베이스에 직접 유입될 수 있음을 보여주었다. 두 번째 사례인 DA466599는 GenBank에 인간 유전체 서열로 등록되었지만, BLAST 분석 결과 Mycoplasma fermentans와 99% 이상의 동질성을 보였다.
논문은 다음과 같은 핵심 문제점을 제기한다. 첫째, 실험실에서 흔히 사용되는 Mycoplasma 오염 검출 방법이 충분히 민감하거나 일관되지 않아, 오염된 시료가 전처리 단계에서 걸러지지 않는다. 둘째, 현재의 자동 주석 파이프라인은 서열의 출처를 판단할 때 ‘인간’이라는 라벨만을 기준으로 삼아, 오염 서열을 인간 유전자로 오인한다. 셋째, 상용 마이크로어레이와 같은 상업적 도구에 이러한 오염 서열이 포함되면, 후속 연구에서 잘못된 발현 결과를 도출하고, 생물학적 해석에 심각한 오류를 초래한다.
기술적 측면에서 저자들은 DA466599의 원본 논문과 제출 기록을 추적하여, 해당 서열이 인간 조직에서 추출된 cDNA 라이브러리에서 얻어졌다고 주장했지만, 실제 실험 재현 과정에서 Mycopulasma 오염이 확인되었다. 또한, 해당 서열이 Affymetrix 마이크로어레이 프로브 설계에 사용된 것을 확인함으로써, 오염이 실험 단계뿐 아니라 데이터베이스 구축 단계까지 확산될 수 있음을 입증했다.
이러한 현상을 방지하기 위해 저자들은 다중 단계 검증 체계를 제안한다. 첫째, 시퀀싱 전 단계에서 Mycoplasma 특이 PCR 또는 qPCR을 이용한 오염 검사. 둘째, 서열 제출 시 자동 BLAST 기반 ‘오염 스크리닝’ 모듈을 도입하여, 인간과 높은 유사성을 보이는 비인간 서열을 경고한다. 셋째, 데이터베이스 관리자는 정기적인 재검토와 커뮤니티 기반 피드백 시스템을 구축해, 의심 서열을 빠르게 식별하고 교정할 수 있어야 한다.
결론적으로, 인간 유전체 데이터베이스에 섞여 있는 마이코플라스마 서열은 단순한 오염을 넘어, 생명정보학 연구 전반에 걸친 신뢰성을 위협한다. 현재의 자동화 도구만으로는 이러한 ‘실리콘 장벽을 넘은’ 오염을 완전히 차단하기 어렵으며, 실험실 관리, 데이터 제출 정책, 그리고 데이터베이스 정제 알고리즘의 통합적 개선이 시급하다.
댓글 및 학술 토론
Loading comments...
의견 남기기