단어 기반 부호에서 베르누이 소스의 중복도와 지연 관계 연구
초록
본 논문은 베르누이 소스로부터 발생하는 무한 문자열을 단어 기반 부호로 압축할 때, 평균 지연 (\bar N)과 중복도 (R) 사이의 새로운 상한 관계 (R \lesssim \bar N^{-5/3})를 제시한다. 또한 출력 길이가 균일한(Uniform‑on‑output) 부호에 대해 일반적으로 (R\asymp \bar N^{-1})이며, 모든 입력 기호가 동일 확률일 경우 무한히 많은 (\bar N)에 대해 (R\le \bar N^{-2})임을 보인다. 이 결과는 전통적인 블록 부호가 달성하는 (R\asymp \bar N^{-1}) 대비 복잡도는 크게 낮추면서도 동일 수준의 효율을 얻을 수 있음을 의미한다.
상세 분석
논문은 먼저 베르누이 소스 ({a_1,\dots ,a_m})와 출력 알파벳 ({b_1,\dots ,b_n})를 정의하고, 단어 기반 부호(word‑based code)를 “입력 단어 집합 (U={A_j})”와 “출력 단어 집합 (V={\phi(A_j)})”의 쌍으로 모델링한다. 여기서 (U)는 prefix‑free이며, 모든 무한 입력 문자열이 유일하게 (U)의 단어열로 분해될 수 있어야 한다. 평균 지연 (\bar N=\sum_j p(A_j)|A_j|)와 최대 지연 (N=\max_j|A_j|)를 복잡도 지표로, 중복도 (R=\bar N^{-1}\sum_j p(A_j)|\phi(A_j)|-H\log_2 n)를 효율성 지표로 채택한다.
핵심 이론적 도구는 Kraft 부등식 (\delta=1-\sum_j n^{-| \phi(A_j)|}>0)와, 각 단어에 대한 오차 (\varepsilon_j=|\phi(A_j)|+\log_n p(A_j))를 이용한 정밀 추정이다. 정리 1은 (\varepsilon_j)를 절댓값 1 이하로 제한했을 때, (\delta)와 (\varepsilon_j)의 제곱합이 중복도 하한에 직접 기여함을 보인다. 특히 (\varepsilon_j)가 작을수록 (\delta)가 0에 가까워져서 부호가 거의 최적에 근접한다는 직관을 제공한다.
다음 단계에서는 선형 형태 (f(\mathbf{k})=\sum_i k_i d_i)를 정수 벡터 (\mathbf{k})에 대해 근사시키는 수론적 결과(Lemma 1)를 활용한다. 여기서 (d_i=\log_n p_i)이며, 적어도 하나가 무리수이면 무한히 많은 정수 (T)에 대해 ({f(\mathbf{k}+T\mathbf{e}_m)})가 (2/T) 이하가 되는 (\mathbf{k})를 찾을 수 있다. 이를 통해 “조건 1”을 만족하는 단어 집합 (M)을 구성하고, 그 집합에 속한 단어들의 평균 길이와 누적 확률을 정밀히 추정한다(Lemmas 7–11).
구성 단계(Theorem 2)에서는 두 개의 서로 다른 집합 (M_1, M_2)를 만든 뒤, 각각에 대해 길이 (l(A)=\lceil -\log_n p(A)\rceil) 혹은 (+1)을 부여해 Kraft 부등식을 만족하도록 한다. 이렇게 얻은 출력 단어 길이 집합 ({l(A_j)})는 prefix‑free 코드를 형성하므로 Huffman 알고리즘을 적용해 최적 부호를 얻을 수 있다. 중요한 결과는
\
댓글 및 학술 토론
Loading comments...
의견 남기기