정규화 정보 거리의 비반계산성

초록

본 논문은 정규화 정보 거리(NID)가 상반계산 가능도 하반계산 가능도 모두 성립하지 않음을 증명한다. 즉, NID는 어느 방향으로도 반계산적으로 근사할 수 없는 비반계산적 함수임을 보인다.

상세 요약

정규화 정보 거리(NID)는 두 문자열 x와 y 사이의 유사성을 측정하기 위해 Kolmogorov 복잡도 K(·)를 이용해 정의된다. 구체적으로 NID(x,y)=max{K(x|y),K(y|x)}/max{K(x),K(y)} 로 표현되며, 이는 두 객체가 서로를 얼마나 압축할 수 있는지를 비율로 나타낸다. 실용적인 응용에서는 K를 직접 계산할 수 없으므로 실제 압축 프로그램을 이용한 정규화 압축 거리(NCD)를 사용한다. NCD는 계산 가능하지만, NID 자체의 복잡도 특성은 오랫동안 미해결 문제였다.

저자들은 먼저 NID가 상반계산 가능(upper semicomputable)이라고 가정하고 모순을 도출한다. 상반계산 가능성은 NID를 점차 감소시키는 유효한 하한열을 생성할 수 있음을 의미한다. 그러나 Kolmogorov 복잡도 자체가 상반계산 가능하지만 하반계산 가능하지 않은 특성을 가지고 있듯이, NID의 분모와 분자에 포함된 K값들의 비율은 이러한 단순한 근사 방법으로는 수렴하지 않는다. 특히, 임의의 재귀적 열을 이용해 NID를 상한으로 제한하려 하면, 그 과정에서 K(x|y)와 K(y|x) 사이의 비대칭성을 동시에 만족시키는 것이 불가능함을 보인다.

다음으로 하반계산 가능성(lower semicomputable)에 대해서도 동일한 방식으로 반증한다. 하반계산 가능하다는 것은 NID를 점차 증가시키는 유효한 상한열을 만들 수 있다는 뜻이다. 저자들은 무작위 문자열 쌍을 구성하고, 이들에 대한 K값이 거의 최대값에 근접함을 이용해 NID가 1에 가까워지는 경우를 고려한다. 이때, 어떤 알고리즘이 NID의 하한을 점진적으로 올릴 수 있다면, 이는 무작위 문자열의 Kolmogorov 복잡도를 효과적으로 예측하는 것과 동등해지며, 이는 알려진 비반계산성 결과와 모순된다.

결과적으로, NID는 상반계산 가능도, 하반계산 가능도 모두 성립하지 않으며, 이는 NID가 완전한 비반계산 함수임을 의미한다. 이론적으로는 NID가 직관적으로 매력적인 거리 척도이지만, 실제 계산이 불가능함을 명확히 함으로써 NCD와 같은 근사 방법의 필요성을 정당화한다. 또한, 이 증명은 정보 이론과 알고리즘 복잡도 이론 사이의 깊은 연관성을 보여주며, Kolmogorov 복잡도의 비반계산성 특성이 파생된 거리 함수에도 그대로 전달된다는 중요한 통찰을 제공한다.

초록

상세 요약

📜 논문 원문 (영문)