정규화 정보 거리의 비근사성
초록
본 논문은 이론적 기반인 Kolmogorov 복잡도에서 정의되는 정규화 정보 거리(NID)가 어떠한 유리한 정밀도에서도 상위 반계산 가능(upper semicomputable)도 하위 반계산 가능(lower semicomputable)도 아님을 증명한다. 실용적으로는 압축 프로그램을 이용해 근사하는 정규화 압축 거리(NCD)가 널리 쓰이지만, NID 자체는 계산적으로 접근할 수 없는 본질적 한계를 가진다.
상세 분석
정규화 정보 거리(NID)는 두 문자열 x와 y에 대해
NID(x,y)=max{K(x|y),K(y|x)}/max{K(x),K(y)}
로 정의된다. 여기서 K(·)는 무조건적인 Kolmogorov 복잡도, K(·|·)는 조건부 복잡도를 의미한다. NID는 이론적으로는 거리의 공리들을 만족하는 유일무이한 정규화 거리라 여겨졌으며, 실제 응용에서는 압축 프로그램을 이용한 정규화 압축 거리(NCD)로 대체된다. 그러나 NID 자체의 계산 가능성은 오랫동안 미해결 문제였다.
논문은 먼저 반계산 가능성(semi‑computability)의 개념을 정리한다. 함수 f가 상위 반계산 가능하다는 것은 일련의 유리수 열 {r_i}가 존재해 r_i ≥ f이며 r_i가 점차 감소해 f에 수렴한다는 뜻이고, 하위 반계산 가능은 그 반대이다. 이러한 정의는 Kolmogorov 복잡도 자체가 상위 반계산 가능하지만 하위 반계산 가능하지 않다는 사실에 기반한다.
주요 정리는 “NID는 어떠한 유리수 ε>0에 대해서도 |NID−g|<ε를 만족하는 상위(또는 하위) 반계산 가능한 함수 g가 존재하지 않는다”는 것이다. 증명은 귀류법으로 시작한다. 가정하에 NID가 ε‑정밀도로 상위 반계산 가능하다면, 이를 이용해 K(x)와 K(y)를 ε‑정밀도로 추정할 수 있게 된다. 그러나 K는 이미 하위 반계산 불가능함이 알려져 있으므로 모순이 발생한다. 반대 방향도 유사하게 K의 비반계산성을 이용해 반증한다.
특히 논문은 두 가지 기술적 도구를 사용한다. 첫째, “대각선화” 기법을 통해 임의의 반계산 가능한 근사 함수가 특정 입력에 대해 반드시 과소·과대 추정하게 만든다. 둘째, “정보 차이”(information gap) 개념을 도입해 NID의 분모와 분자가 서로 독립적인 복잡도 항을 포함함을 보이고, 이 독립성이 반계산 가능성을 방해한다는 점을 강조한다.
결과적으로 NID는 이론적으로는 매력적인 거리 메트릭이지만, 실제 계산에서는 절대적인 근사조차 불가능함을 증명한다. 이는 NCD가 실용적인 대안으로 채택된 이유를 이론적으로 정당화하며, NID 자체를 직접 활용하려는 시도는 근본적인 한계에 부딪힌다는 중요한 메시지를 전달한다.
댓글 및 학술 토론
Loading comments...
의견 남기기