압축 기반 경험적 엔트로피 새 정의
초록
본 논문은 유한 알파벳 위의 문자열에 대해 기존 마코프 모델 기반 엔트로피 대신, 압축 알고리즘을 이용해 무작위 변수의 기술 길이와 그가 유발하는 엔트로피의 합을 새로운 경험적 엔트로피로 정의한다. 계산 가능한 분포만을 가정하고, 제안된 지표를 정규화 정보 거리(NID)와 상호 정보 기반 유사도와 비교함으로써 두 개념의 공통점과 차이를 실험적으로 드러낸다.
상세 분석
논문은 먼저 전통적인 경험적 엔트로피가 마코프 체인의 전이 확률을 직접 추정하고 그 엔트로피 값을 산출하는 방식임을 지적한다. 이러한 접근은 모델 차수 선택, 파라미터 추정 오류, 그리고 데이터가 충분히 길지 않을 때 과적합 위험을 내포한다. 저자는 이를 보완하기 위해 “설명 길이 + 엔트로피”라는 두 요소를 합산하는 새로운 정의를 제시한다. 여기서 설명 길이는 선택된 확률 분포를 프로그램 코드 형태로 기술하는 최소 비트 수, 즉 Kolmogorov 복잡도에 근접한 값으로 간주한다. 실제 구현에서는 무손실 압축기(LZ78, PPM 등)를 사용해 문자열을 압축하고, 압축된 파일 크기를 해당 분포의 기술 길이 추정치로 활용한다. 그 뒤, 압축된 데이터가 해당 분포를 따를 때 발생하는 셰넌 엔트로피를 계산해 두 값을 합산한다. 이 과정은 분포가 계산 가능(computable)하기만 하면 적용 가능하므로, 마코프 차수에 제한받지 않는다.
다음으로 저자는 제안된 엔트로피를 정규화 정보 거리(NID)와 비교한다. NID는 두 문자열 사이의 상호 정보량을 압축 기반으로 정규화한 거리 척도로, “공통 정보량 / 최대 정보량” 형태로 정의된다. 논문은 NID와 새로운 경험적 엔트로피 기반 유사도(MI‑based similarity)를 동일한 데이터셋(텍스트, 바이너리 파일, DNA 서열 등)에 적용해 상관관계를 분석한다. 실험 결과, 두 지표는 높은 상관성을 보이지만, 특히 데이터가 짧거나 비정규적인 패턴을 가질 때 차이가 두드러진다. 이는 NID가 전체 압축 효율에 크게 의존하는 반면, 새로운 지표는 분포 기술 비용을 별도로 고려하기 때문에 복잡도와 불확실성을 보다 세밀하게 구분한다는 점을 시사한다.
또한 논문은 이론적 측면에서 두 지표의 경계 조건을 탐구한다. 무한히 긴 문자열에 대해 압축 효율이 셰넌 한계에 수렴하면, 제안된 경험적 엔트로피는 결국 전통적인 셰넌 엔트로피와 동일해진다. 반면, 계산 가능한 분포가 매우 복잡하거나 압축기가 최적이 아닐 경우, 설명 길이 항이 지배적 역할을 하여 NID와는 다른 스케일링 특성을 보인다. 이러한 분석은 정보 이론과 알고리즘 복잡도 이론을 연결하는 다리 역할을 하며, 실제 데이터 과학에서 모델 선택과 평가 기준을 재고하게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기