Mizar 정리의 문장 복잡도 조사
초록
본 논문은 Mizar 수학 도서관(MML)에 포함된 정리들을 대상으로 양화사 교대 횟수(quantifier alternation)를 기준으로 한 문장 복잡도(Π/Σ 계층)를 측정한다. 결과는 대부분의 정리가 단순한 전칭형(Π₁)이며, 복잡도가 높아질수록 정리 수가 급격히 감소함을 보여준다.
상세 분석
이 연구는 Mizar 시스템이 내부적으로 {∀,∧,¬}만을 사용한다는 점에 착안해, 표면 언어가 아닌 내부 의미 표현을 대상으로 복잡도를 평가한다. 복잡도 정의는 전통적인 프리넥스 정규형(prenex normal form)을 기반으로 하며, Σₙ은 ‘∃ … ∀ …’ 형태, Πₙ은 ‘∀ … ∃ …’ 형태로 구분한다. 한 문장이 여러 프리넥스 형태를 가질 경우, 가장 낮은 계층의 형태를 선택해 최소 복잡도로 기록한다는 규칙을 두어 인간이 의도한 단순성을 반영한다.
데이터 수집은 Mizar 8.1.02와 MML 5.20.1189 버전을 사용했으며, ‘정리’라는 범주를 넓게 정의해 공식적인 theorem뿐 아니라 lemma, diffuse reasoning block, type‑changing statement, property, rewrite rule, identification, scheme instance, 존재·유일성 조건 등 다양한 선언을 포함한다. 이렇게 포괄적인 정의를 채택함으로써 전체 도서관의 논리적 구조를 보다 정확히 파악하고자 했다.
실험 결과는 두 개의 표로 제시된다. 표 1은 모든 정리(≈89,506개)의 Πₙ·Σₙ 분포를 보여주며, Π₀(원자식)와 Π₁이 압도적으로 많고, Π₂, Π₃ 정도까지는 소수 정도가 존재한다. Π₄ 이상은 거의 없으며, Σₙ 계열은 Πₙ에 비해 현저히 적다(특히 Σ₁이 1,374개, 그 외는 거의 0). 표 2는 정의 정리(≈10,657개)만을 대상으로 한 결과로, Σₙ이 전혀 나타나지 않고 Π₀·Π₁·Π₂·Π₃·Π₄·Π₅·Π₆ 순으로 급감한다.
논의에서는 (1) 수학적 서술이 본질적으로 전칭형을 선호한다는 전통적 직관이 실증적으로 확인됐으며, (2) 존재형 정리는 파라미터가 외부에서 전칭으로 양화되기 때문에 실제로는 Π‑계층에 속한다는 점을 강조한다. 또한 정의 정리가 Σ‑형을 가질 수 없는 구조적 이유(정의는 본질적으로 등식이며, 양화가 필요 없는 경우가 대부분)도 설명한다. 복잡도가 높은 정리들은 (a) 복합적인 성질을 동시에 기술하는 특성화 정리, (b) 구조적 동형성을 보이는 재표현 정리, (c) 복잡한 정의를 가진 함수의 존재·유일성 조건 등으로 분류된다. 특히, 유한 교환군의 직접곱 표현 정리와 같은 사례는 Π₆ 수준의 복잡도를 보이며, 이는 양화사 교대가 여러 차례 중첩된 형태다.
한계점으로는 프리넥스 변환 과정에서 양화사의 순서를 재배열함에 따라 실제 인간이 의도한 의미와 약간의 차이가 발생할 수 있다는 점, 그리고 ‘정리’ 범주를 넓게 잡음으로써 정리와 정의 사이의 경계가 흐려질 가능성을 언급한다. 향후 연구에서는 (i) 정의를 별도로 정제해 보다 엄격한 Σ/Π 구분을 시도하고, (ii) 다른 형식화 시스템(예: Coq, Isabelle)과 비교해 복잡도 분포의 일반성을 검증하며, (iii) 정리의 복잡도와 증명 길이·자동 증명 성공률 사이의 상관관계를 탐색하는 방향을 제시한다.
전체적으로 이 논문은 Mizar라는 대규모 형식화 데이터베이스를 활용해 수학적 진술의 논리적 복잡성을 정량화함으로써, “수학은 본질적으로 낮은 복잡도(특히 Π₁) 수준에 머문다”는 가설을 실증적으로 뒷받침한다. 이는 형식화 연구자와 자동 증명 시스템 설계자에게, 복잡도가 높은 정리일수록 특수한 정의 도입이나 구조적 변환이 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기