선택 비트의 보편적 예측
초록
이 논문은 솔로모프 귀납법의 정규화 버전 Mₙₒᵣₘ이 전체 시퀀스가 비계산적이더라도 목표 비트에 존재하는 어떠한 재귀적 패턴이라도 결국 정확히 예측한다는 것을 증명한다. 반면 정규화되지 않은 M은 아주 단순한 패턴조차 놓칠 수 있음을 보인다. 이를 통해 입력‑출력 쌍으로 이루어진 온라인 분류 문제에서도 입력 분포가 복잡해도 목표 레이블의 구조만으로 학습이 가능함을 이론적으로 뒷받침한다.
상세 분석
본 논문은 알고리즘 정보 이론에서 핵심적인 솔로모프 사전분포 M과 그 정규화 버전 Mₙₒᵣₘ을 대상으로, “선택된” 비트(예: 짝수 위치 비트)만이 어떤 재귀적 함수 f에 의해 결정되는 경우를 분석한다. 먼저 M은 단순히 반정확(semimeasure)이라서 M(x) > M(x0)+M(x1) 이라는 결함을 가지고 있어, 전체 시퀀스에 대한 확률 질량이 1보다 작다. 이 때문에 M은 특정 비트를 예측할 확률이 1에 수렴하지 않을 수 있다. 반면 Mₙₒᵣₘ은 M(x0)+M(x1) 로 정규화함으로써 진정한 확률분포가 된다.
핵심 정리 10은 f가 전역적으로 정의된 총재귀 함수이며, f(ωn)≠ε 인 경우에만 ωₙ 을 정확히 예측한다는 가정 하에, Mₙₒᵣₘ이 ωₙ 에 대한 조건부 확률을 1로 수렴함을 보인다. 증명은 다음과 같다. 우선 U_M (보편 단조 머신)의 모든 프로그램 중 f가 틀리는 첫 번째 위치 i 를 찾아 그 앞까지의 출력만을 모아 새로운 머신 L을 만든다. L은 전형적인 전위(prefix) 머신이 되며, 그에 대응하는 반분포 P는 크라프트 불등식에 의해 1 이하임을 보인다. 이후 M과 m(정규화된 전위 분포) 사이의 상수배 관계와 정리 9 ( m(ωn)/M(ωn)→0 ) 를 이용해 Mₙₒᵣₘ(¬ωₙ | ωn)→0, 즉 Mₙₒᵣₘ(ωₙ | ωn)→1 을 얻는다.
정리 11은 f가 부분 재귀 함수일 때도 비슷한 수렴을 기대할 수 있음을 제시하지만, 완전한 증명은 아직 남아 있다. 논문은 또한 M이 Mₙₒᵣₘ에 비해 예측 실패 예시(짝수 비트가 앞 비트와 동일한 패턴) 를 제시해, 정규화의 실질적 필요성을 강조한다.
이 결과는 전통적인 “전체 시퀀스가 계산 가능 분포에서 샘플링된다”는 가정 없이도, 목표 변수만이 계산 가능한 규칙을 따르는 경우(예: 입력‑출력 쌍에서 레이블만 구조적) 솔로모프 기반 방법이 이론적으로 완전함을 보여준다. 따라서 온라인 분류, 강화학습 등에서 입력 분포가 복잡하거나 비계산적이라도, 목표에 대한 재귀적 규칙만 존재한다면 Mₙₒᵣₘ은 최적 예측자를 제공한다는 의미다.
댓글 및 학술 토론
Loading comments...
의견 남기기