대규모 수학 서적 자동 형식화 프레임워크 M2F
초록
M2F는 Lean 환경에서 교과서·논문 수준의 수학 텍스트를 자동으로 형식화하는 두 단계 파이프라인을 제시한다. 첫 단계에서는 문서를 원자 블록으로 분해하고 의존성을 추론·정제해 선언 스켈레톤을 만들며, 검증 오류가 없을 때까지 로컬 패치를 반복한다. 두 번째 단계에서는 남은 sorry 자리들을 목표‑조건부 로컬 편집으로 채워 완전한 증명을 만든다. 검증기 피드백을 유일한 수용 기준으로 삼아 진행 상황을 보장한다. 실험 결과 479 페이지 분량, 153 853 라인의 Lean 코드가 3주 만에 생성되었으며, FATE‑H 베이스라인 대비 96 %의 증명 성공률을 기록했다.
상세 분석
M2F는 기존 자동 정리 증명 시스템과 자동 형식화 도구가 직면한 “프로젝트 수준 컴파일” 문제를 해결하기 위해 설계되었다. 핵심 아이디어는 Verifier‑Certified Refinement (VeriRefine) 로, Lean 검증기의 진단을 직접 피드백으로 사용해 제안된 패치를 즉시 검증하고, 오류 수가 감소하거나 sorry 개수가 줄어들 경우에만 변경을 커밋한다. 이 accept/revert 메커니즘은 편집 과정에서 발생할 수 있는 회귀를 원천 차단하고, 검증 호출 수를 직접적인 계산 비용으로 전환함으로써 대규모 프로젝트에서도 안정적인 진행을 가능하게 한다.
파이프라인은 두 단계로 나뉜다. **1단계(Statement Compilation)**에서는 입력 LaTeX 문서를 JSON 아이템 시퀀스로 정규화하고, 각 아이템에 대해 LLM이 선언 스켈레톤을 생성한다. 선언이 컴파일 오류를 일으키면, 오류 진단을 로컬화한 뒤 RepairPatch 연산자를 통해 제한된 범위(헤더·선언 영역) 내에서 패치를 제안한다. 이 과정은 파일 단위 검증(VerifyFile)을 반복하면서 오류 수가 엄격히 감소할 때만 적용된다. 결과적으로 전체 프로젝트가 sorry가 포함된 상태라도 빌드가 성공하도록 만든다.
**2단계(Proof Repair)**에서는 이미 안정된 선언 구조 위에 남아 있는 sorry를 목표‑조건부 로컬 편집으로 채운다. 여기서는 목표 타입과 컨텍스트를 추출(GoalState)하고, 증명 플래너가 후보 증명 스크립트를 생성한다. 후보가 검증에 실패하면 FixCompileError와 같은 오류‑수정 연산자를 재활용해 다시 패치를 시도한다. 이 단계는 sorry 개수를 최소화하는 2차 목표를 사용해 accept 조건을 정의한다.
M2F는 검증기‑정규화 비용(Verifier‑normalized compute)라는 새로운 평가 단위를 도입한다. 이는 실제 CPU 시간보다 검증 호출 수에 기반해 비용을 측정함으로써, 하드웨어 의존성을 최소화하고 다양한 환경에서 비교 가능한 결과를 제공한다. 실험에서는 312 페이지의 실해석, 140 페이지의 볼록 분석, 27 페이지의 연구 논문을 포함한 총 479 페이지를 3주 안에 처리했으며, 241 파일, 4 116 선언, 153 853 라인의 Lean 코드를 생성했다. FATE‑H 데이터셋에 대해선 96 %의 Proof Success Rate(PSR)를 달성했으며, 기존 최고 성능인 Seed‑Prover 1.5(80 %)보다 16 %p 높은 결과를 보였다.
기술적 기여는 크게 세 가지로 정리된다. 첫째, 텍스트‑투‑Lean 프로젝트 컴파일을 공식화함으로써 대규모 자동 형식화의 목표를 명확히 했다. 둘째, VeriRefine이라는 검증기 기반 accept/revert 원칙을 도입해 안정적인 점진적 개선을 보장했다. 셋째, M2F 자체가 강력한 증명 도구로 작동함을 입증했으며, 이는 기존 자동 정리 증명 시스템과 차별화되는 점이다. 한계점으로는 현재 Lean 4 환경에 종속적이며, LLM 기반 스켈레톤 생성 단계에서 아직 인간 전문가 수준의 정확도에 도달하지 못한다는 점이 있다. 향후 연구에서는 다중 언어·다중 증명 도구 지원, 스켈레톤 품질 향상을 위한 피드백 루프 강화, 그리고 대규모 수학 라이브러리와의 자동 연동을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기