비트 최적 LZ 압축 알고리즘
본 논문은 LZ77 사전 구조를 이용하면서 가변 길이 정수 코딩(예: Elias, Fibonacci)으로 인코딩할 때, 기존의 탐욕적 파싱이 비트 효율성에서 최악의 경우 Θ(log n / log log n) 만큼 손해를 본다는 사실을 증명한다. 이를 극복하기 위해 입력 문자열을 가중 DAG로 모델링하고, 전체 그래프 대신 구조적으로 작은 서브그래프에서 단일 출발 최단 경로(SSSP)를 계산함으로써 최적 비트 파싱을 O(n) 공간과 |E_sub|…
저자: Paolo Ferragina, Igor Nitto, Rossano Venturini
본 논문은 LZ77 기반 사전 압축에서 가변 길이 정수 인코딩을 적용했을 때, 기존의 탐욕적 파싱이 비트 효율성 측면에서 최적이 아님을 이론적으로 증명하고, 이를 극복하는 새로운 비트‑최적 파싱 알고리즘을 제시한다.
첫 번째 섹션에서는 LZ77와 LZ78의 기본 메커니즘을 소개하고, 탐욕적 파싱(가장 긴 매치를 선택)이 사전 완전성(프리픽스·서픽스 완전성) 하에서 구문 수를 최소화한다는 기존 결과를 언급한다. 그러나 구문 수 최소화와 비트 길이 최소화는 동일하지 않으며, 특히 거리(d)와 길이(ℓ)를 가변 길이 코드워드(f, g)로 인코딩할 경우 탐욕적 파싱이 비트 최적이 아님을 지적한다.
두 번째 섹션에서는 증가 비용 속성(Increasing Cost Property)을 만족하는 인코더 f와 g를 정의한다. 이는 정수값이 클수록 코드워드 길이가 길어지는 특성으로, Elias‑γ, δ, Fibonacci 코딩 등이 해당한다. 이 속성을 기반으로 LZ_f,g(S) (탐욕적 파싱)와 OPT_f,g(S) (비트 최적 파싱)를 공식화한다.
그 후, 저자들은 특수 문자열 군 S_l = b a^l c^{2l} (ba)^i … 를 구성해, 탐욕적 파싱이 최소 비트 길이에 비해 Θ(log n / log log n) 만큼 손해를 보는 구체적인 사례를 제시한다. 여기서 n은 문자열 길이이며, 탐욕적 파서는 긴 복사 구문을 선택해 거리·길이 인코딩에 큰 비트를 소비한다. 반면, 최적 파서는 복사 거리를 짧게 유지하면서 여러 작은 구문으로 나누어 전체 비트를 크게 절감한다. 이 예시는 가변 길이 인코딩이 적용될 때 탐욕적 파싱이 최적이 아님을 명확히 보여준다.
세 번째 섹션에서는 비트‑최적 파싱 문제를 가중 DAG G(S) 위의 단일 출발 최단 경로(SSSP) 문제로 모델링한다. 정점 i(1≤i≤n)와 정점 j(i
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기