자동 증명 엔지니어링 평가를 위한 APE 벤치
초록
본 논문은 대규모 수학 라이브러리에서 발생하는 증명 엔지니어링 작업을 체계적으로 평가하기 위한 프레임워크인 APE‑Bench과 그 실행 인프라 APE‑Harness를 제안한다. 커밋 히스토리에서 실제 수정 작업을 추출해 자연어 명령과 이중 검증(컴파일·의미 검증) 형태의 과제로 변환하고, 다양한 LLM 기반 에이전트를 동일 조건에서 비교한다.
상세 분석
APE(Automated Proof Engineering)라는 새로운 작업 정의는 “핀된(repository‑pin) 환경·툴체인·자연어 지시·이중 검증” 네 요소를 명시함으로써 기존의 미니F2F·miniCTX와 같은 정리 증명 중심 벤치마크와 근본적으로 차별화된다. 기존 벤치마크는 정리 명제에 대한 타입‑체크 가능한 증명(term)만을 요구하지만, APE는 파일 수준의 수정, 선언 추가·삭제, 속성 부여 등 실제 라이브러리 유지보수에서 발생하는 복합적인 작업을 포함한다. 특히 의미 검증 단계는 LLM‑as‑Judge를 활용해 “요구사항 정렬”, “스코프 제어”, “논리적 정확성”을 3차원 평가 척도로 정량화한다. 이는 단순 컴파일 성공이 의미적으로 올바른 증명을 보장하지 못한다는 점을 보완한다.
APE‑Bench 파이프라인은 Mathlib 커밋 로그를 자동 크롤링해 100개의 과제를 67개의 서로 다른 커밋(2026‑01‑01 이후)에서 추출한다. 각 과제는 (1) 수정 대상 파일, (2) 변경 라인 수, (3) 자연어 지시문을 포함한다. 이때 원본 커밋 해시와 Lean 툴체인 버전을 고정(pinned)하여 재현성을 확보한다. 파이프라인은 또한 동일 파일이 여러 버전에 중복될 경우 해시 기반 콘텐츠 중복 제거(content deduplication)를 적용해 저장소 규모를 로그‑선형으로 축소한다.
APE‑Harness는 “Task Contract”라는 선언적 스키마를 핵심으로 한다. 계약은 (i) 환경 바인딩(레포지토리 해시·툴체인), (ii) 목표(정리 증명·파일 수정·속성 부여 등), (iii) 경계(읽기 전용·블록 경로), (iv) 검증 프로토콜(컴파일·의미 검증) 네 부분으로 구성된다. 계약은 실행 전략을 강제하지 않으며, 이를 통해 Claude Code, Codex CLI, 자체 구현 APE‑Agent 등 서로 다른 에이전트가 동일 계약을 공유하면서도 내부 구현을 자유롭게 교체할 수 있다. 인프라는 (a) Execute Service(컴파일 검증), (b) Retrieve Service(선언·정리 검색), (c) Orchestrator(워크스페이스 격리·검증 흐름 관리) 로 구성된다. 특히 다중 버전 지원을 위해 라이브러리 파일을 내용 해시로 주소 지정하고, 동일 해시 파일은 하나의 컴파일 아티팩트만 생성하도록 설계해 67버전 전체에 대해 메모리·디스크 사용량을 10배 이상 절감한다.
실험에서는 GPT‑5.2, Gemini 3 Pro, Gemini 3 Flash 등 최신 모델 3종을 APE‑Agent, Claude Code, Codex CLI와 함께 평가했다. 100개의 과제 중 평균 성공률(컴파일·의미 검증 모두 통과)은 GPT‑5.2가 42 %, Gemini 3 Pro가 35 %, Gemini 3 Flash가 31 %였으며, Claude Code와 Codex CLI는 각각 27 %와 22 %에 머물렀다. 의미 검증 단계에서 인간 전문가가 제공한 64개의 정답 라벨과 LLM‑as‑Judge의 점수가 0.84의 높은 코헨스턴시를 보이며, 자동 판단의 신뢰성을 입증한다. 또한 APE‑Bench을 miniF2F·miniCTX와 같은 기존 벤치마크에 그대로 적용해 동일 인프라가 정리 증명·리트리벌·증명 엔지니어링을 모두 다룰 수 있음을 시연한다.
핵심 기여는 (1) 대규모 증명 엔지니어링 작업을 공식화한 APE 모델, (2) 실제 커밋을 기반으로 자동 생성된 APE‑Bench 데이터셋, (3) 계약 기반 실행 프레임워크 APE‑Harness, (4) 연구용 APE‑Agent 스캐폴드, (5) 다중 버전 효율성을 위한 콘텐츠 중복 제거 메커니즘이다. 이 인프라는 향후 LLM 기반 증명 엔지니어링 연구에 표준 평가 기반을 제공하고, 실제 수학 라이브러리 유지보수에 적용 가능한 자동화 기술 개발을 촉진할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기