적응형 컨텍스트 트리 가중치 알고리즘

초록

ACTW는 기존 CTW에 최근 관측치에 더 높은 가중치를 부여하는 적응 메커니즘을 추가해, 비정상적 데이터 흐름에서도 압축 효율을 향상시킨다. 실험 결과, 표준 벤치마크 파일들의 합집합에서는 CTW보다 우수했으며, 개별 파일에서는 크게 손해보지 않았다.

상세 분석

컨텍스트 트리 가중치(CTW) 알고리즘은 마코프 모델의 깊이‑가변 컨텍스트 트리를 이용해, 각 노드에서 Krichevsky‑Trofimov(KT) 추정기를 적용해 확률을 계산하고, 모든 깊이의 예측을 베이즈 혼합으로 결합한다. 이 방식은 모든 관측치를 동일하게 취급하므로, 데이터가 정적(stationary)일 때는 최적에 가까운 압축률을 제공한다. 그러나 실제 스트림 데이터는 시간에 따라 통계적 특성이 변하는 경우가 많아, 오래된 관측치가 현재의 확률 추정에 과도하게 영향을 미치는 단점이 있다. ACTW는 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 각 노드의 KT 추정기에 지수적 할인 계수를 적용해 최근 관측치의 영향력을 점진적으로 증가시킨다. 둘째, 트리 깊이에 따라 할인 비율을 조정함으로써, 얕은 컨텍스트(짧은 히스토리)에서는 빠른 적응을, 깊은 컨텍스트(긴 히스토리)에서는 안정성을 유지한다. 구현 측면에서는 기존 CTW와 동일한 O(D) 메모리와 O(D) 연산 복잡도를 유지하면서, 할인 계수 업데이트만 추가되므로 실시간 적용이 가능하다. 이론적으로는 가중치가 감소함에 따라 로그 손실 상한이 약간 늘어날 수 있지만, 비정상적 환경에서는 전체 손실이 감소하는 효과가 관찰된다. 실험에서는 표준 압축 벤치마크( Calgary, Canterbury 등)의 개별 파일과 이들을 합친 대용량 파일에 대해 ACTW의 여러 변형을 테스트했으며, 합집합에서는 평균 압축 비율이 CTW보다 0.5~1.2% 개선되었다. 반면 개별 파일에서는 대부분 동일하거나 미세히 악화되는 정도에 그쳐, 최악의 경우에도 기존 CTW보다 0.2% 이하로 뒤처지지 않았다. 이러한 결과는 ACTW가 비정상적 데이터 흐름에 강인하면서도, 정적 상황에서는 기존 CTW와 거의 동등한 성능을 유지한다는 점을 시사한다.