고속 시퀀싱 데이터 초고압축 기술
초록
본 논문은 고처리량 시퀀싱(HTS) 데이터의 저장·전송 부담을 크게 낮추기 위해, 스키마 진화에 자유롭게 대응하면서도 기존 포맷보다 뛰어난 압축률을 제공하는 새로운 데이터 구조와 압축 알고리즘을 제안한다. 특히 Goby 프레임워크를 기반으로 한 다계층 데이터 조직 방식을 도입해, RNA‑Seq 스플라이스 정렬을 BAM 대비 96% 이상 압축하고, 유전자 발현·에피제네틱 데이터에서도 20% 이상의 추가 절감 효과를 입증하였다.
상세 분석
이 연구는 고처리량 시퀀싱 데이터의 구조적 특성을 활용한 압축 방식을 설계함으로써, 기존 포맷이 갖는 두 가지 근본적 한계를 극복한다. 첫째, 기존 BAM/CRAM 등은 고정된 스키마에 묶여 새로운 시퀀싱 기술이나 분석 파이프라인이 등장하면 포맷 자체를 수정하거나 변환해야 하는 비효율성을 가진다. 저자들은 프로토콜 버퍼(Protocol Buffers) 기반의 가변 스키마 시스템을 도입해, 필드 추가·삭제·변경이 발생해도 데이터 자체를 재인코딩하지 않아도 되는 ‘스키마 진화’ 메커니즘을 구현하였다. 이는 데이터 생산 단계와 분석 단계 사이의 호환성을 크게 향상시킨다.
둘째, 압축 효율 측면에서 저자들은 두 가지 핵심 아이디어를 결합한다. 첫 번째는 ‘구조적 중복 제거’이다. HTS 데이터는 리드 ID, 서열, 품질 점수, 정렬 정보 등 반복적인 메타데이터와 정렬 좌표가 다량 존재한다. 이를 트리 구조로 모델링하고, 동일한 서열·품질 패턴을 공유하는 리드들을 하나의 공통 블록으로 묶어 중복을 제거한다. 두 번째는 ‘다계층 코덱’ 설계로, 원시 시퀀스와 품질 점수는 무손실 압축을, 정렬 좌표와 같은 정수형 필드는 가변 길이 엔트로피 코딩(예: 파라메트릭 골드버그 코딩)으로 압축한다. 특히 스플라이스 RNA‑Seq 정렬에서는 인트론-엑손 경계 정보가 반복적으로 나타나는데, 이를 ‘스플라이스 이벤트 테이블’로 추출해 별도 사전(dictionary) 방식으로 인코딩함으로써 BAM 대비 96% 이상의 압축률을 달성한다.
성능 평가에서는 인간 게놈 전장 시퀀싱, 마우스 전사체, 그리고 히스톤 변형 ChIP‑Seq 데이터셋을 대상으로 압축 비율, 압축·해제 속도, 메모리 사용량을 비교하였다. 결과는 모든 테스트에서 기존 CRAM(최신 압축 포맷)보다 평균 20% 이상의 추가 압축을 보였으며, 압축·해제 속도는 1.2~1.5배 가량 빠른 것으로 나타났다. 또한 네트워크 전송 시 데이터 크기가 크게 감소함에 따라 전송 지연이 70% 이상 감소하는 효과도 확인되었다.
마지막으로, 저자들은 이 기술을 Goby 소프트웨어 스위트에 통합하여, 데이터 인제스트, 정렬, 변이 호출, 차등 발현 분석 등 전형적인 HTS 워크플로우를 지원하도록 구현하였다. Goby는 기존 파이프라인과의 인터페이스를 제공하면서도, 압축된 포맷을 직접 읽어들여 메모리 사용량을 최소화한다는 장점을 갖는다. 전체적으로 이 논문은 데이터 저장·전송 비용을 획기적으로 낮추면서도, 스키마 진화와 분석 파이프라인의 유연성을 동시에 만족시키는 실용적인 솔루션을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기