데이터 시퀀스 손실 없는 압축 한계와 경험적 경계

본 논문은 개별 데이터 시퀀스에 대한 손실 없는 압축 한계를 파라메트릭 모델로 접근한다. 정규화 최대 가능도(NML) 코드는 최소-최대 최적성을 보이며, 지수 가족에 대해 NML 코드 길이는 $nH(\hat\theta_n)+\frac d2\log\frac{n}{2\pi}+\log\int_\Theta|I(\theta)|^{1/2}d\theta+o(1)$ 로 전개된다. 베이지안 예측을 통한 혼합 코드는 동일한 1차 항에 추가적인 $\log\frac…

저자: Lei M Li

본 논문은 “개별 데이터 시퀀스의 손실 없는 압축 한계”라는 근본적인 질문을 다루며, 이를 정보 이론과 알고리즘 복잡도 두 관점에서 통합적으로 분석한다. 서론에서는 Kolmogorov 복잡도가 이론적으로는 최적 압축 한계를 정의하지만 계산 불가능하다는 점을 지적한다. 대신 Shannon의 소스 코딩 정리는 평균 코드 길이가 $nH$ 로 하한을 제공하지만, 실제 데이터에 적용하기 위해서는 확률 모델을 추정해야 한다. 저자는 관측된 단어 빈도 $\hat\theta_n$ 를 최대우도(MLE) 추정값으로 사용하면 $nH(\hat\theta_n)$ 가 실제 최적 코드 길이보다 항상 작아진다는 문제를 제기한다. 이는 파라미터 추정에 필요한 “스톡라스틱 복잡도”가 누락되기 때문이다. 이후 Shtarkov이 제시한 정규화 최대 가능도(NML) 분포를 도입한다. NML은 모든 파라미터 $\theta\in\Theta$에 대해 \

데이터 시퀀스 손실 없는 압축 한계와 경험적 경계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기