코드 보안 자동화의 새 지평, CVE‑Factory와 LiveCVEBench
초록
CVE‑Factory는 다중 에이전트 프레임워크로, 희소한 CVE 메타데이터를 전문가 수준의 실행 가능한 보안 과제로 자동 변환한다. 95% 해결 정확도와 96% 환경 충실도를 달성했으며, 최신 CVE 66.2%를 성공 재현한다. 이를 기반으로 190개의 다언어·다레포지토리 과제로 구성된 LiveCVEBench를 지속 업데이트하고, 1,000여 개의 학습용 환경을 생성해 Qwen3‑32B 모델을 5.3%→35.8%까지 향상시켰다.
상세 분석
본 논문은 코드 보안 분야에서 가장 큰 병목 중 하나인 고품질 취약점 재현 과제의 자동 생성 문제를 해결하고자 한다. 기존 연구는 CVE 리스트에서 제공되는 제한된 설명과 레퍼런스만을 활용해 수작업으로 환경을 구축했으며, 한 CVE당 평균 10시간 이상의 인력이 소요되는 비효율적인 방식이었다. 이러한 한계를 극복하기 위해 저자들은 “CVE‑Factory”라는 다중 에이전트 시스템을 설계하였다.
시스템은 총 6단계로 구성되며, 첫 3단계(Information Collection, File Generation, Environment Construction)는 각각 전문화된 에이전트가 독립적으로 작업한다. 여기서 핵심은 “컨텍스트 격리”와 “마크다운 기반 지식 전달”이다. 각 에이전트는 자체 대화 히스토리를 유지하지 않고, 전 단계에서 생성된 마크다운 파일을 입력으로 받아 필요한 정보를 추출한다. 이는 200k 토큰을 초과하는 장기 의존성을 효과적으로 분할하고, LLM의 컨텍스트 제한을 회피한다는 점에서 혁신적이다.
두 번째 3단계(Verification)에서는 Orchestrator가 각 에이전트의 출력물을 정적 스크립트로 검증한다. ‘continue’, ‘error’, ‘pause’ 신호를 통해 피드백 루프를 구현, 문제가 발생하면 원 생성 에이전트에게 자동으로 되돌려 수정하도록 설계했다. 특히 ‘blind building’ 제약을 두어 Builder 에이전트가 테스트나 솔루션을 미리 볼 수 없게 함으로써, 에이전트가 기대값에 맞춰 결과를 조작하는 위험을 방지한다.
성능 평가에서는 두 가지 축을 사용했다. 첫째, 기존 PatchEval 데이터셋(215개)에서 인간 전문가가 만든 환경과 비교했을 때 95%의 솔루션 통과율과 96%의 환경 일치를 기록했다. 이는 자동화된 파이프라인이 인간 수준의 재현 품질을 유지함을 의미한다. 둘째, 2025년 5~12월 사이에 발표된 최신 454개 CVE에 대해 66.2%가 수동 검증을 통과했으며, 특히 AI‑tool(예: PyTorch) 관련 취약점이 증가하고 있음을 발견했다.
이러한 검증을 바탕으로 저자들은 LiveCVEBench라는 지속 업데이트 가능한 벤치마크를 구축했다. 190개의 과제는 14개 언어와 153개 레포지토리를 포괄하며, 최신 위협(예: AI‑tool 취약점)까지 반영한다. 또한 1,000여 개의 실행 가능한 학습 환경을 자동 생성해, Qwen3‑32B 모델을 fine‑tuning함으로써 LiveCVEBench에서 5.3%→35.8%(≈6.8배) 향상, PatchEval에서는 12.5%→31.3%(≈2.5배) 향상을 달성했다. 이 결과는 보안 특화 LLM이 일반 코드 생성 모델보다 현저히 높은 성공률을 보이며, Terminal Bench와 같은 비보안 작업에도 일반화 가능함을 시사한다.
기술적 기여는 크게 세 가지로 정리할 수 있다. (1) 다중 에이전트 기반의 CVE 자동 재현 파이프라인, 컨텍스트 격리와 피드백 루프를 통한 고품질 과제 생성; (2) 실시간 위협 변화를 반영하는 다언어·다레포지토리 벤치마크 LiveCVEBench; (3) 1,000여 개의 대규모 학습 환경을 활용한 보안 LLM의 효율적 파인튜닝. 마지막으로 모든 코드, 데이터, 모델, 리더보드를 오픈소스로 제공함으로써 연구 재현성과 커뮤니티 확장을 적극 지원한다.
전체적으로 CVE‑Factory는 코드 보안 자동화 연구에 새로운 패러다임을 제시한다. 기존 수작업 중심의 과제 생성 방식을 탈피해, 대규모·고품질·실시간 업데이트 가능한 보안 과제 풀을 제공함으로써, 향후 AI 기반 코드 에이전트의 보안 능력 향상에 핵심 인프라가 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기