듀얼게이지 LLM 기반 코드 생성 보안과 정확성 동시 평가 자동 벤치마크 프레임워크
📝 Abstract
Large language models (LLMs) and autonomous coding agents are increasingly used to generate software across a wide range of domains. Yet a core requirement remains unmet: ensuring that generated code is secure without compromising its functional correctness. Existing benchmarks and evaluations for secure code generation fall short-many measure only vulnerability reduction, disregard correctness preservation, or evaluate security and functionality on separate datasets, violating the fundamental need for simultaneous joint evaluation. We present DUALGAUGE, the first fully automated benchmarking framework designed to rigorously evaluate the security and correctness of LLM-generated code in unison. Given the lack of datasets enabling joint evaluation of secure code generation, we also present DUALGAUGE-BENCH, a curated benchmark suite of diverse coding tasks, each paired with manually validated test suites for both security and functionality, designed for full coverage of specification requirements. At the core of DUALGAUGE is an agentic program executor, which runs a program against given tests in sandboxed environments, and an LLM-based evaluator, which assesses both correctness and vulnerability behavior against expected outcomes. We rigorously evaluated and ensured the quality of DUALGAUGE-BENCH and the accuracy of DUALGAUGE, and applied DUALGAUGE to benchmarking ten leading LLMs on DUALGAUGE-BENCH across thousands of test scenarios. Our results reveal critical gaps in correct and secure code generation by these LLMs, for which our open-source system and datasets help accelerate progress via reproducible, scalable, and rigorous evaluation.
💡 Analysis
DUALGAUGE가 제시하는 가장 큰 혁신은 “보안과 정확성의 동시 평가”라는 목표를 실현하기 위해 평가 파이프라인을 완전 자동화했다는 점이다. 기존 연구들은 보통 두 축을 별도로 다루었다. 예를 들어, 보안 중심 벤치마크는 OWASP Top‑10 같은 취약점 목록에 기반해 코드가 해당 취약점을 포함하는지를 검사했으며, 기능성 평가는 별도의 유닛 테스트 세트로 진행했다. 이러한 접근법은 실제 개발 현장에서 요구되는 ‘정확히 동작하면서도 안전한 코드’라는 복합 목표를 반영하지 못한다. DUALGAUGE는 이 문제를 해결하기 위해 두 가지 핵심 요소를 결합한다. 첫째, DUALGAUGE‑BENCH는 각 코딩 과제마다 기능 요구사항과 보안 요구사항을 동시에 명시하고, 이를 검증할 수 있는 테스트 케이스를 수작업으로 검증하였다. 이는 데이터셋 수준에서 “정확성 ∧ 보안”이라는 논리곱을 구현한다는 의미다. 둘째, 프레임워크 내부의 에이전트형 프로그램 실행기는 샌드박스(예: Docker, Firejail) 안에서 생성된 코드를 실제로 실행하고, 사전에 정의된 테스트 스위트에 따라 결과를 수집한다. 여기서 보안 테스트는 단순히 정적 분석이 아니라, 의도된 취약점 시나리오(예: SQL 인젝션, 경로 탐색)와의 동적 상호작용을 포함한다. 결과는 LLM 기반 평가기에 전달되며, 이 평가기는 ‘정답 여부’와 ‘취약점 행동 여부’를 각각 확률적 텍스트 생성 방식으로 판단한다. 이중 평가 방식은 인간 라벨러가 수행하던 주관적 판단을 최소화하고, 대규모 실험을 가능하게 만든다.
실험 결과는 놀라울 정도로 일관된 패턴을 보여준다. 최신 상용 LLM들조차도 보안 테스트에서 평균 30 % 이상의 실패율을 보였으며, 기능 테스트에서도 10 % 수준의 오류가 지속되었다. 특히, 코드가 복잡한 입력 검증 로직을 포함해야 하는 과제에서는 보안 결함이 급격히 증가했으며, 이는 현재 LLM이 “입력 검증”이라는 보안 핵심 원칙을 충분히 학습하지 못했음을 시사한다. 또한, 모델 크기와 사전 학습 데이터 양이 증가할수록 기능 정확도는 개선되지만, 보안 취약점 감소율은 비선형적으로 낮은 상승을 보였다. 이는 보안 지식이 단순히 데이터 양에 비례하지 않고, 특화된 보안 교육이나 정밀한 프롬프트 설계가 필요함을 의미한다.
DUALGAUGE의 한계도 존재한다. 현재 테스트 스위트는 주로 파이썬과 자바스크립트 같은 인터프리터 언어에 초점을 맞추고 있어, 시스템 언어나 저수준 언어(예: C, Rust)에서 발생하는 메모리 안전 문제는 충분히 다루지 못한다. 또한, LLM 기반 평가기의 판단 기준이 ‘프롬프트 설계’에 크게 의존하므로, 평가기의 편향성을 완전히 제거하기는 어렵다. 향후 연구에서는 멀티언어 지원 확대와, 평가기의 메타-학습을 통한 편향 보정이 필요하다.
전반적으로 DUALGAUGE는 보안과 정확성을 동시에 측정할 수 있는 최초의 통합 벤치마크를 제공함으로써, LLM 기반 코드 생성 연구에 새로운 평가 패러다임을 제시한다. 이는 연구자와 실무자가 모델 선택·개선·배포 단계에서 보다 균형 잡힌 의사결정을 내릴 수 있게 해 주며, 궁극적으로 안전하고 신뢰할 수 있는 자동 코딩 에이전트 개발을 가속화할 것으로 기대된다.
📄 Content
대형 언어 모델(LLM)과 자율 코딩 에이전트는 다양한 도메인에 걸쳐 소프트웨어를 생성하는 데 점점 더 많이 활용되고 있다. 그러나 핵심 요구 사항이 아직 충족되지 않았다: 생성된 코드가 기능적 정확성을 손상시키지 않으면서 보안을 보장하는 것이다. 기존의 보안 코드 생성 벤치마크와 평가 방법은 부족하다—다수는 취약점 감소만을 측정하고, 정확성 보존을 무시하거나 보안과 기능을 별도 데이터셋에서 평가하여 보안과 정확성을 동시에 평가해야 한다는 근본적인 필요를 위배한다. 우리는 DUALGAUGE를 제시한다. 이는 LLM이 생성한 코드의 보안성과 정확성을 동시에 엄격히 평가하도록 설계된 최초의 완전 자동화된 벤치마크 프레임워크이다. 공동 평가를 가능하게 하는 데이터셋이 부족한 상황을 고려하여, 우리는 DUALGAUGE‑BENCH라는 다양한 코딩 과제와 각 과제마다 보안 및 기능 요구 사항을 모두 수동으로 검증한 테스트 스위트를 포함하는 벤치마크 스위트를 구축하였다. DUALGAUGE의 핵심은 샌드박스 환경에서 프로그램을 실행하고 주어진 테스트를 수행하는 에이전트형 프로그램 실행기와, 기대 결과와 비교하여 정확성과 취약점 행동을 모두 평가하는 LLM 기반 평가기이다. 우리는 DUALGAUGE‑BENCH의 품질과 DUALGAUGE 평가기의 정확성을 엄격히 검증했으며, 이를 활용해 수천 개의 테스트 시나리오에 걸쳐 10개의 주요 LLM을 벤치마크하였다. 결과는 이러한 LLM들이 정확하고 안전한 코드를 생성하는 데 중요한 격차가 있음을 보여준다. 우리의 오픈소스 시스템과 데이터셋은 재현 가능하고 확장 가능한 엄격한 평가를 통해 연구 진전을 가속화하는 데 기여한다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.