압축 팔림프셋: 가변 코딩의 유연성 탐구

** 본 논문은 압축 효율과 수정 용이성(가변성) 사이의 트레이드오프를 정량화한다. 문자열 편집 거리를 기반으로 정의한 ‘가변성 비용’과 전통적인 압축률을 동시에 고려한 새로운 코딩 프레임워크를 제시하고, 이를 그래프 서브임베딩 문제와 연결시켜 이론적 한계와 구현 방안을 제시한다. **

저자: Lav R. Varshney, Julius Kusuma, Vivek K Goyal

** 본 논문은 데이터 압축과 수정(편집)이라는 두 가지 상충되는 목표를 동시에 고려하는 ‘가변 코딩(malleable coding)’ 프레임워크를 제안한다. 전통적인 소스 코딩 이론은 압축 효율만을 최적화하기 위해 typical set의 크기와 엔트로피 한계에 집중한다. 그러나 실제 저장·전송 시스템에서는 이미 압축된 데이터가 존재하고, 이를 최소한의 비용으로 새로운 버전으로 업데이트해야 하는 경우가 많다. 이러한 상황을 ‘압축 팔림프셋(compressed palimpsest)’이라고 부르며, 기존 코드워드의 일부를 재활용하거나 전체를 다시 인코딩하지 않고도 새로운 데이터를 복원할 수 있어야 한다. ### 1. 문제 정의 및 모델링 - **알파벳 및 편집 거리**: 저장 매체는 유한 알파벳 \(V\) 로 구성되며, 문자열 집합 \(V^{*}\) 위에 편집 거리 \(d(\cdot,\cdot)\) (예: Levenshtein, Hamming)를 정의한다. - **확률 모델**: 원본 문자열 \(X^{n}\)와 편집 후 문자열 \(Y^{n}\)는 i.i.d. 쌍 \((X_i,Y_i)\) 로 모델링되며, 편집 채널 \(p_{Y|X}\) 로 연결된다. - **코딩 구조**: 두 가지 코딩 형태를 다룬다. (1) 가변 길이 코드: 인코더 \(f_E:W^{n}\to V^{*}\), 디코더 \(f_D:V^{*}\to W^{n}\). (2) 블록 코드: 고정 길이 매핑 \(f_E:W^{n}\to V^{nK}\) 및 \(V^{nL}\) 로 각각 원본과 편집 버전을 인코딩하고, 공통 디코더를 사용한다. - **성능 지표**: (i) 압축률 \(R_X = \frac{1}{n}\mathbb{E}

압축 팔림프셋: 가변 코딩의 유연성 탐구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기