다중 객체를 위한 정보 거리와 그 응용
초록
본 논문은 기존의 쌍(pair) 기반 정보 거리 개념을 유한 리스트, 즉 다중 객체(multiples)로 확장한다. Kolmogorov 복잡도 이론을 바탕으로 최대 겹침, 최소 겹침, 메트릭 성질, 보편성, 가법성, 정규화 정보 거리 등을 정의·분석하고, 실제 압축 프로그램을 이용한 근사 방법을 제시한다.
상세 분석
정보 거리는 두 객체 사이의 최소 프로그램 길이, 즉 하나를 다른 하나로 변환하는 데 필요한 최소 정보량으로 정의된다. 기존 연구는 주로 두 객체 사이의 거리만을 다루었으며, 이를 기반으로 NCD(Normalized Compression Distance)와 같은 실용적인 유사도 측정법이 개발되었다. 본 논문은 이러한 개념을 “다중” 즉, 유한 개수의 객체 집합으로 일반화한다. 핵심 아이디어는 전체 리스트 L = {x₁,…,xₙ}를 하나의 문자열로 인코딩한 뒤, 개별 원소를 다른 원소들의 집합으로부터 복원하는 데 필요한 Kolmogorov 복잡도 K(xᵢ | L{xᵢ})를 측정하는 것이다.
논문은 먼저 최대 겹침(maximal overlap) 개념을 도입한다. 이는 리스트 전체를 압축했을 때 얻어지는 공통 정보량을 의미하며, K(L)와 ΣᵢK(xᵢ | L{xᵢ}) 사이의 차이로 정량화된다. 이 차이가 작을수록 리스트 내 객체들이 서로 많은 정보를 공유한다는 의미이며, 이는 군집화나 패턴 인식에서 중요한 힌트를 제공한다.
다음으로 **메트릭성(metricity)**을 검증한다. 다중 정보 거리는 대칭성, 비음성, 삼각 부등식 등 전통적인 거리의 성질을 만족하도록 정의된다. 특히 삼각 부등식은 “두 리스트 A와 B 사이의 거리 + B와 C 사이의 거리 ≥ A와 C 사이의 거리” 형태로 확장되며, 이는 복합 데이터셋을 단계적으로 비교할 때 일관된 결과를 보장한다.
**보편성(universality)**에 대해서는, 제안된 거리 함수가 모든 유효한 정보 거리(즉, 어떤 computable 변환에 의해 정의된 거리)보다 작거나 같은 상한을 가짐을 증명한다. 이는 다중 정보 거리가 가장 “효율적인” 거리 척도임을 의미한다.
**최소 겹침(minimal overlap)**은 반대로 리스트 내 각 객체가 서로 독립적인 정보를 얼마나 많이 가지고 있는지를 측정한다. K(xᵢ)와 K(xᵢ | L{xᵢ})의 차이를 통해 정의되며, 값이 클수록 객체 간 중복이 적어 개별 특성이 강조된다.
가법성(additivity) 섹션에서는 두 리스트를 합친 경우 전체 거리와 개별 거리의 관계를 탐구한다. 일반적으로 D(L₁∪L₂) ≤ D(L₁)+D(L₂) 가 성립함을 보이며, 이는 대규모 데이터베이스를 부분적으로 처리한 뒤 결과를 합치는 전략이 이론적으로 정당함을 시사한다.
마지막으로 정규화 정보 거리(Normalized Information Distance, NID) 를 다중 버전으로 확장한다. 기존 NID는 두 객체 사이의 상대적 차이를 01 사이 값으로 정규화했지만, 다중 NID는 전체 리스트의 복잡도 K(L)와 각 원소의 조건부 복잡도 K(xᵢ | L{xᵢ})를 이용해 01 범위의 스칼라를 산출한다. 이는 서로 다른 규모와 차원의 데이터 집합을 직접 비교할 수 있게 해준다.
실제 구현에서는 Kolmogorov 복잡도를 직접 계산할 수 없으므로, gzip, bzip2, LZMA 등 상용 압축 프로그램을 사용해 압축 길이를 근사값으로 사용한다. 실험 결과, 다중 NID는 이미지 군집, 텍스트 문서 분류, 생물학적 서열 분석 등 다양한 분야에서 기존 쌍 기반 방법보다 높은 분별력을 보였다.
이러한 이론적·실험적 결과는 정보 거리 개념을 다중 객체에 적용함으로써 데이터 마이닝, 패턴 인식, 계통수 구축 등 복합 데이터 분석에 새로운 도구를 제공한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기