스트리밍 모델에서 압축 한계와 BWT 구현 가능성

본 논문은 표준, 멀티패스, W‑Streams, StreamSort, Read‑Write 등 여러 스트리밍 모델에서 문자열 압축 한계를 조사한다. 메모리와 압축 적합도 사이의 근접한 트레이드오프를 증명하고, BWT와 유사 변환인 Schindler Transform을 각각 Read‑Write 모델과 StreamSort 모델에서 구현함으로써 이론적 한계를 달성한다.

저자: Travis Gagie (corresponding author)

본 연구는 대용량 데이터 처리에 필수적인 압축 기법과 스트리밍 알고리즘을 통합하려는 시도에서, 특히 Burrows‑Wheeler Transform(BWT)이 스트리밍 환경에서 구현 가능한지를 탐구한다. 서론에서는 BWT가 컨텍스트 기반 압축에서 뛰어난 성능을 보이지만, 전통적인 스트리밍 모델은 한 번의 패스와 제한된 메모리(보통 다항 로그)만을 허용한다는 점을 지적한다. 이를 바탕으로 다섯 가지 모델을 정의한다: (1) Standard – 단일 패스와 서브선형 메모리, (2) Multi‑Pass – 읽기 전용 테이프를 여러 번 되감아 사용, (3) W‑Streams – 각 패스마다 테이프를 상수 배수까지 확장 가능, (4) StreamSort – 일정 패스 수 내에서 테이프를 정렬할 수 있음, (5) Read‑Write – 추가 작업 테이프와 쓰기 전용 출력 테이프를 허용한다. 다음 섹션에서는 문자열 s(길이 n, 알파벳 크기 σ)의 k‑차 경험적 엔트로피 H_k(s)를 기준으로 “n·H_k(s)+σ^k·log n” 비트 이하로 저장할 수 있는지 질문한다. 표준 모델에서 메모리를 O(n^c) (0

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기