산업 현장 검증을 위한 LLM 기반 자동 정리 증명기 AutoReal

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 활용해 산업 규모 형식 검증 프로젝트인 seL4의 정리 증명을 자동화하는 AutoReal 프레임워크를 제안한다. CoT(Chain‑of‑Thought) 기반 증명 학습과 프로젝트 전용 컨텍스트 증강을 결합해 7 B 파라미터 규모의 AutoReal‑Prover를 파인튜닝했으며, seL4 660개 정리에서 51.67%의 성공률(기존 27.06% 대비)과 AFP 보안 프로젝트 451개에서 53.88%의 성공률을 달성했다. 모델은 경량화돼 로컬 배포가 가능하고, 증명 단계별 자연어 설명을 제공한다.

상세 분석

AutoReal은 산업‑규모 형식 검증의 두 가지 핵심 난관을 동시에 해결한다. 첫째, 기존 LLM 기반 자동 정리 증명은 수학 중심 베치마크(miniF2F 등)에 최적화돼 복잡한 시스템 증명에 적용하기 어려웠다. seL4와 같은 마이크로커널 검증은 수천 개의 보조 정리와 정의, 그리고 다단계 증명 체인을 필요로 하며, 증명 컨텍스트가 매우 풍부하고 동적이다. 둘째, 대부분의 선행 연구가 GPT‑4와 같은 수백 억 파라미터 규모의 폐쇄형 모델을 사용했기 때문에 로컬 배포가 불가능하고 비용이 크게 발생한다. AutoReal은 7 B 규모의 오픈소스 Qwen2.5‑Coder를 기반으로 하여, 경량화된 로컬 실행 환경을 제공한다는 점에서 실무 적용 가능성을 크게 높였다.

핵심 기술은 ‘Chain‑of‑Thought 기반 증명 학습’이다. 저자들은 seL4 프로젝트에서 추출한 200 k 단계‑레벨 증명·CoT 쌍을 구축했으며, 각 증명 단계에 앞뒤 상태와 명령, 그리고 그 명령이 증명 상태에 미치는 영향을 자연어로 설명하도록 설계했다. 이렇게 구성된 데이터는 LLM이 증명 단계의 논리 흐름을 학습하도록 돕고, 실제 증명 생성 시 단계별 자연어 설명을 동반한다. 이는 인간 검증자가 자동 생성된 증명을 검증·수정하는 데 필요한 투명성을 제공한다.

두 번째 개선점은 ‘컨텍스트 증강’이다. AutoReal‑Prover는 목표 정리와 함께 해당 정리와 연관된 보조 정리·정의·전제들을 프롬프트에 삽입한다. 이를 통해 모델은 인간 검증자가 사용하는 동일한 전제 하에서 증명을 전개할 수 있다. 특히 seL4와 같이 증명 컨텍스트가 지속적으로 누적되는 환경에서, 이전에 증명된 보조 정리를 자동으로 활용함으로써 증명 성공률을 크게 끌어올렸다.

실험 결과는 두드러진 성과를 보여준다. seL4‑Important Theories에 속한 660개 정리 전체에서 51.67%의 성공률을 기록했으며, 이는 기존 Selene(GPT‑4 기반) 27.06% 대비 거의 두 배에 달한다. 또한, AFP 보안 프로젝트(CRYSTALS‑Kyber, RSA‑PSS, Elliptic_Curves_Group_Law) 451개 정리에서도 53.88%의 성공률을 달성, 도메인 전이 능력도 입증했다. 성공률은 ‘증명 스크립트가 Isabelle/HOL 검증기를 통과하고, sorry/oops와 같은 플레이스홀더가 없으며, 모든 서브골을 해결한 경우’로 정의돼 신뢰성을 확보한다.

AutoReal‑Prover는 경량화된 7 B 모델임에도 불구하고, 단계‑레벨 CoT와 컨텍스트 증강을 통해 복잡한 시스템 증명에 충분히 대응한다는 점에서 LLM 기반 자동 정리 증명의 새로운 패러다임을 제시한다. 모델과 데이터셋이 오픈소스로 공개돼 학계·산업 모두에서 재현 및 확장이 가능하며, 향후 더 큰 규모의 모델이나 추가적인 도메인에 대한 파인튜닝을 통해 성공률을 더욱 높일 여지가 있다. 또한, 단계별 자연어 설명은 검증 엔지니어가 자동 증명을 빠르게 이해·디버깅할 수 있게 하여, 인간‑LLM 협업 워크플로우를 촉진한다는 실용적 의미도 크다.

산업 현장 검증을 위한 LLM 기반 자동 정리 증명기 AutoReal

초록

상세 분석

댓글 및 학술 토론

의견 남기기