LLM 에이전트로 정밀한 SAST 거짓양성 필터링: 비교 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 최신 LLM 기반 에이전트(Aider, OpenHands, SWE‑agent)가 정적 애플리케이션 보안 테스트(SAST) 도구의 거짓양성(FP)을 얼마나 효과적으로 제거할 수 있는지를 OWASP Benchmark와 실제 오픈소스 Java 프로젝트(Vul4J)에서 비교 평가한다. 강력한 백본 모델(Claude Sonnet 4, GPT‑5)에서는 FP 비율을 92%에서 6.3%까지 낮출 수 있었으며, 코드QL 경고에 대해서는 최대 93.3%의 FP 식별률을 달성했다. 그러나 모델·CWE·프레임워크에 따라 성능 차이가 크고, 과도한 FP 억제는 실제 취약점 누락 위험을 동반한다. 또한 계산 비용이 프레임워크마다 크게 달라 실운용 시 신중한 선택이 필요하다.

상세 분석

이 연구는 세 가지 LLM 에이전트 프레임워크—Aider, OpenHands, SWE‑agent—를 동일한 실험 파이프라인에 통합하여, 각각을 Claude Sonnet 4, DeepSeek Chat, GPT‑5라는 세 백본 모델과 결합하였다. 실험은 두 단계로 구성되었다. 첫 번째는 OWASP Benchmark(Java v1.2)에서 2,000여 개 이상의 취약점 시나리오를 대상으로 FP 비율을 측정했으며, 두 번째는 Vul4J 데이터셋에서 추출한 50개의 실제 코드QL 경고를 사용해 실제 프로젝트 환경에서의 성능을 검증하였다.

결과는 크게 세 가지 차원에서 해석된다. ① FP 감소 효율: 가장 좋은 조합(Aider + Claude Sonnet 4)에서는 초기 92% 수준이던 FP 비율을 6.3%로 낮추었고, OpenHands와 SWE‑agent도 각각 8.1%, 9.4% 수준으로 큰 개선을 보였다. ② 백본·CWE 의존성: 강력한 모델(Claude Sonnet 4, GPT‑5)에서는 에이전트가 제로샷 프롬프트 대비 평균 12%p 이상의 FP 감소 효과를 보였지만, DeepSeek Chat에서는 오히려 제로샷이 최적이었다. 또한 암호학(CWE‑327)·정책(CWE‑614) 계열은 여전히 FP가 잔존했으며, 주입형(CWE‑89, CWE‑78) 취약점은 거의 완벽히 필터링되었다. ③ 비용·안전성 트레이드오프: Aider는 평균 4.2 round, 1.8 M 토큰을 사용해 가장 높은 비용을 요구했으며, SWE‑agent은 라운드 수가 적어 비용 효율이 좋았지만 FP 억제율이 다소 낮았다. 또한, 공격적인 FP 억제 설정에서는 실제 취약점을 오탐(거짓음성)으로 놓치는 비율이 2~3%까지 상승했다.

이러한 분석은 LLM 에이전트가 단순 프롬프트 기반 분류기보다 반복적 증거 수집·툴 활용을 통해 정적 분석 결과를 인간 감사자와 유사하게 정교하게 판단할 수 있음을 보여준다. 그러나 모델 규모·CWE 특성·프레임워크 설계에 따라 성능 차이가 크므로, 실무 적용 시 목표 정확도와 비용을 명확히 정의하고, 위험도가 높은 CWE에 대해서는 보수적인 설정을 유지하는 것이 바람직하다.

LLM 에이전트로 정밀한 SAST 거짓양성 필터링: 비교 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기