실제 암호 어셈블리 검증을 위한 LLM 벤치마크 s2n bignum bench

논문은 LLM 기반 신경정리(Neurosymbolic Theorem Proving) 분야에서 기존의 수학‑중심 벤치마크가 실제 시스템 코드 검증 능력을 평가하지 못한다는 문제점을 지적한다. 이를 보완하기 위해 AWS의 s2n‑bignum 암호 라이브러리에서 검증된 어셈블리 루틴을 기반으로 새로운 벤치마크 s2n‑bignum‑bench을 제안한다. s2n‑bignum은 ARM·x86 어셈블리 수준에서 고성능 빅인티저 연산을 제공하며, 그 정확성은 HOL Light으로 형식 검증된 바 있다. 논문은 이 검증 과정을 두 단계(정확한 수학적 명제 정의, 증명 생성)로 나누고, 두 단계 모두 인간 전문가가 수행했음을 강조한다. 벤치마크 구성은 먼저 2,284개의 증명 과제를 독립적인 컨텍스트‑쿼리 형태로 추출한다. 각 과제는 arch.filename.thm.N 형태의 고유 식별자를 갖고, setup.ml(필요 정의·상수 로드)과 query.txt(목표 명제) 두 파일로 구성된다. 원본 증명 본문은 CHEAT TAC라는 플래시홀더로 대체해, LLM이 완전한 증명 스크립트를 새로 작성하도록 만든다. 문제는 비트‑벡터, 프로그램‑상태, 기능‑정합성, 일반 보조 네 카테고리로 나뉘며, 특히 기능‑정합성은 실제 암호 연산의 전후조건을 ISA‑구체적으로 모델링한다. 이는 레지스터·메모리 초기 상태, 엔디언스, 별칭 등을 포함한 비트‑정밀 상태 변화를 증명해야 함을 의미한다. 관련 연구 섹션에서는 MiniF2F, PutnamBench 등 수학‑중심 벤치마크와 NTP4VC, VeriSoftBench 등 코드‑검증 벤치마크를 비교한다. s2n‑bignum‑bench은 HOL Light을 전제로 하며, 저수준 어셈블리와 ISA 모델을 직접 다루는 점에서 차별성을 가진다. 또한, 기존 벤치마크가 주로 고수준 추상화된 검증 조건을 다루는 반면, 본 벤치마크는 실제 머신 코드와 그 실행 의미론을 포함한다. 평가 파이프라인은 (1) 제출물 구문·타입 사전 검사, (2) CHEAT TAC 사용 여부와 새로운 공리 도입 검증, (3) OCaml 파서로 단일 표현식 확인, (4) HOL Light 커널 내 제한된 타임아웃(예: 60 초) 내 증명 검증으로 구성된다. 결과는 OK·FAIL·CHEATING·TIMEOUT·ERROR 중 하나로 기록되며, CSV 형태로 집계한다. 베이스라인 실험에서는 GPT‑5.3‑Codex를 사용해 전체 벤치마크에서 4.4 %~5.3 %의 성공률을 보였으며, 이는 현재 LLM이 저수준 코드 검증에 충분히 강력하지 않음을 시사한다. 무결성 및 오염 방지를 위해 타입 주석을 상세히 출력해 난독화하는 메커니즘을 도입했으며, 이는 약 70 %의 문제에 적용 가능했다. 파서‑프린터 간 불일치가 있는 경우 원본 표현을 그대로 사용한다. 또한, 제출물에 새로운 공리나 금지된 전술을 삽입하려는 시도를 axioms() 함수를 통해 사후 검증한다. 결론에서는 s2n‑bignum‑bench이 실제 암호 어셈블리 검증 능력을 측정하는 최초의 공개 벤치마크임을 강조한다. 현재는 기능‑정합성에 초점을 맞추었지만, 향후 상수‑시간 보장, 최적화 루틴과 검증 친화적 루틴 간 동등성 등 관계‑형식 검증 과제로 확장 가능성을 제시한다. 이를 통해 LLM 기반 신경정리 연구가 보안·신뢰성 분야의 실질적인 문제 해결로 나아갈 수 있는 기반을 제공한다.

실제 암호 어셈블리 검증을 위한 LLM 벤치마크 s2n bignum bench

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기