LLM과 자동 검증의 결합: miniF2F를 Dafny로 옮기다
초록
본 논문은 수학 문제 벤치마크 miniF2F를 자동‑활성 검증기 Dafny로 변환한 MINIF2F‑DAFNY를 소개한다. Dafny의 내장 SMT 자동화만으로도 전체 문제의 39‑44%를 증명할 수 있음을 보였으며, 나머지 문제에 대해 7개의 최신 LLM을 평가해 최고 모델인 Claude Sonnet 4.5가 55.7%의 성공률을 기록했다. 결과는 고수준 전략은 LLM이, 저수준 논리 계산은 자동화가 담당하는 효율적인 노동 분할이 가능함을 시사한다.
상세 분석
본 연구는 두 가지 기존 패러다임—인터랙티브 정리 증명기(ITP)와 자동‑활성 검증기(AA)—의 장단점을 정량적으로 비교하고, 이를 LLM과 결합한 새로운 워크플로우를 제시한다. 먼저 miniF2F의 488개 문제(테스트 244, 검증 244)를 Dafny 문법으로 직접 번역했으며, 각 문제는 전제와 후건을 명시한 레마 형태로 제시되고 증명 본문은 비어 있다. Dafny는 이러한 레마를 Boogie 중간 표현으로 변환하고, Z3 SMT 솔버에 VC(Verification Condition)를 전달한다. 실험 결과, 자동화만으로도 95/244(38.9%)의 테스트와 106/244(43.4%)의 검증 문제를 무인증명으로 해결했으며, 이는 Lean의 grind 전술이 해결한 79/244(32.4%)보다 현저히 높은 수치다. 이는 수학적 추론 중 상당 부분이 SMT가 효율적으로 처리할 수 있는 산술·논리 연산임을 보여준다.
자동화가 실패한 나머지 문제에 대해 7개의 오프‑더‑쉘프 LLM(Claude Sonnet 4.5, GPT‑4‑Turbo, Gemini 1.5‑Flash 등)을 사용해 증명 힌트를 생성하도록 했다. 힌트는 Dafny의 assert, calc, lemma 등 ghost 코드 형태로 제공되며, 모델은 문제 설명과 현재 상태를 프롬프트에 포함해 고수준 전략(예: 귀납, 경우 나눔, 주요 보조정리 호출)을 제시한다. 가장 좋은 모델인 Claude Sonnet 4.5는 전체 문제 중 55.7%를 성공적으로 증명했으며, 이는 ITP 기반 최신 모델(예: Lean‑Specialized GPT‑4)보다 낮지만, 해당 모델들은 대규모 파인튜닝과 복잡한 에이전트 프레임워크를 사용한 반면, 본 연구는 일반 LLM을 제한된 연산 자원으로 적용한 점이 차별점이다.
또한, Dafny의 자동화가 제공하는 증명 길이와 가독성을 정량적으로 분석했다. LLM이 제공한 힌트 기반 증명은 평균 30줄 이하로, ITP에서 요구되는 수백 줄의 전술 스크립트에 비해 훨씬 간결하고 인간이 이해하기 쉬운 형태였다. 이는 자동‑활성 검증기의 “증명 객체가 없음”이라는 특성이 LLM에게 더 직관적인 출력 형식을 요구하게 만들며, 결과적으로 인간‑기계 협업에 유리한 환경을 만든다.
한편, 정의와 라이브러리 파일(definitions.dfy, library.dfy)은 81개의 정의와 174개의 보조 정리를 축소된 공리 집합으로 제공한다. 이는 SMT 솔버가 과도한 검색 공간에 빠지지 않도록 설계된 것으로, 실제 수학적 라이브러리와는 차이가 있다. 저자들은 무작위 14문제에 대해 공리 집합의 soundness를 검증했지만, 전체 베이스라인에 대한 완전한 형식적 검증은 아직 남아 있다.
결론적으로, 본 연구는 (1) 수학 문제에 대한 자동‑활성 검증기의 강력한 기본 자동화 능력, (2) LLM이 고수준 전략을 제공함으로써 자동화가 실패하는 경우를 보완, (3) 두 기술의 결합이 증명 길이와 가독성을 크게 개선한다는 세 가지 주요 인사이트를 제시한다. 향후 연구는 (a) 더 풍부한 수학 라이브러리와 공리 검증, (b) LLM‑검증기 인터페이스를 위한 프롬프트 최적화, (c) 다중 단계 에이전트 시스템을 통한 자동‑수동 협업 모델 구축을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기