메모리 효율적인 드 브루인 그래프 구축

초록

본 논문은 대용량 유전체 데이터의 디 브루인 그래프를 메모리 사용량 10 GB 이하로 구축할 수 있는 디스크 기반 파티셔닝 기법인 Minimum Substring Partitioning(MSP)을 제안한다. MSP는 k‑mer 간 겹침을 활용해 파티션 크기를 Θ(kn)에서 Θ(n)으로 압축하고, 각 파티션을 순차적으로 메모리에 적재·처리한 뒤 병합함으로써 기존 방법 대비 수백 배 적은 메모리로 그래프를 완성한다. 실험 결과, 상용 PC에서도 수십 억 개의 리드가 포함된 데이터셋을 문제없이 처리할 수 있음을 보였다.

상세 분석

이 논문은 차세대 시퀀싱(NGS) 데이터의 폭발적 증가가 기존 de novo 어셈블리 파이프라인, 특히 디 브루인 그래프 구축 단계에서 메모리 병목을 초래한다는 점을 출발점으로 삼는다. 전통적인 접근법은 모든 k‑mer을 메모리 내 해시 테이블이나 정렬된 배열에 저장하고, 그 위에 인접 관계를 구축한다. 이 경우 전체 메모리 요구량은 입력 리드 수 n과 k‑mer 길이 k에 비례해 Θ(k n) 정도가 되며, 인간 게놈 수준(≈3 Gbp)에서는 수백 기가바이트가 필요해 일반 PC에서는 불가능하다.

저자들은 이러한 문제를 해결하기 위해 Minimum Substring Partitioning(MSP)이라는 파티셔닝 전략을 고안한다. 핵심 아이디어는 “minimum substring”이라는 개념을 도입해 각 k‑mer을 고유한 파티션에 할당하는 것이다. 구체적으로, 길이 k의 k‑mer을 길이 m(<k)인 최소 서브스트링(min‑sub)으로 매핑하고, 동일한 min‑sub를 공유하는 k‑mer들을 하나의 파티션에 모은다. 이때 파티션은 겹치지 않는 disjoint 집합이 되며, 각 파티션에 포함된 k‑mer 수는 전체 k‑mer 수에 비해 크게 감소한다.

MSP가 메모리를 절감하는 메커니즘은 두 가지 측면에서 설명될 수 있다. 첫째, 파티션 내에서 k‑mer 간 겹침(overlap)을 활용해 압축 저장이 가능하다. 예를 들어, 연속된 k‑mer은 k‑1개의 염기가 공유되므로, 파티션에 저장할 때 첫 번째 k‑mer만 전체를 기록하고 이후 k‑1개의 염기만 추가하면 된다. 둘째, 파티션 자체가 Θ(n) 규모로 축소되므로, 디스크에 저장된 파티션 파일들의 총 용량도 입력 데이터와 동일 수준에 머문다.

구현 단계에서는 (1) 입력 리드 스트림을 순차적으로 읽으며 각 k‑mer의 min‑sub를 계산하고, (2) 해당 파티션 파일에 k‑mer을 기록한다. 파티션 파일은 디스크에 임시 저장되며, 메모리 사용량은 현재 활성 파티션 하나만 로드하는 수준으로 제한된다. 이후 (3) 각 파티션을 메모리로 읽어들여 내부적으로 k‑mer을 정렬·중복 제거하고, 인접 관계(edge)를 생성한다. 마지막으로 (4) 모든 파티션에서 생성된 부분 그래프를 병합해 최종 디 브루인 그래프를 완성한다.

성능 평가에서는 인간 게놈(3 Gbp)과 마우스, 식물 등 다양한 대형 유전체 데이터를 대상으로 실험하였다. 결과는 메모리 사용량이 8 GB~10 GB 수준에 머무르는 반면, 전체 실행 시간은 기존 메모리 집약적 방법과 거의 동일하거나 오히려 약간 빠른 것으로 나타났다. 이는 디스크 I/O가 파티션 크기 감소와 겹침 기반 압축 덕분에 최소화되었기 때문이다. 또한, 파티션 수와 min‑sub 길이 m을 조절함으로써 메모리와 실행 시간 사이의 트레이드오프를 유연하게 조정할 수 있음을 보였다.

이 논문의 주요 기여는 (1) 디 브루인 그래프 구축 과정에서 메모리 요구량을 Θ(k n) → Θ(n) 으로 이론적으로 감소시킨 파티셔닝 프레임워크, (2) 겹침 정보를 활용한 실질적인 데이터 압축 기법, (3) 상용 PC 환경에서도 대형 유전체 데이터를 처리할 수 있는 실용적인 구현 및 평가이다. 향후 연구에서는 파티션 병합 단계의 병렬화를 통해 클러스터 환경에서의 스케일아웃 가능성을 탐색하거나, 다른 그래프 기반 어셈블리 파이프라인(예: 문자열 그래프)에도 MSP 원리를 적용하는 방안을 모색할 수 있다.