제로샷 멀티에이전트로 취약점 탐지 혁신
초록
MultiVer는 보안·정확성·성능·스타일 네 가지 전문 에이전트를 병렬로 실행하고, Union 투표로 결과를 종합하는 제로샷 멀티에이전트 시스템이다. PyVul 벤치마크에서 82.7%의 리콜을 달성해 파인튜닝된 GPT‑3.5(81.3%)를 능가했으며, SecurityEval에서도 91.7% 탐지율을 기록했다. 리콜 향상은 정밀도(48.8%) 감소와 트레이드오프를 이루며, 비용·지연이 큰 반면 감사 단계에서 높은 리콜이 요구되는 보안 상황에 적합하다.
상세 분석
MultiVer는 취약점이 보안, 논리 오류, 성능 저하, 코드 스타일 등 다중 차원에서 나타난다는 가설에 기반한다. 이를 위해 네 개의 전문 에이전트를 설계했으며, 각각 보안(가중치 0.45), 정밀성(0.35), 성능(0.15), 스타일(0.05) 분석을 담당한다. 각 에이전트는 3단계 파이프라인을 따르는데, 첫 단계는 CWE‑매핑된 정형 패턴 매칭으로 50 ms 이내에 53 % 정도의 보안 리콜을 확보한다. 두 번째 단계는 FAISS 기반 RAG를 이용해 5개의 유사 사례와 3개의 사양 문서를 100 ms 정도 추가 지연으로 가져온다. 마지막 단계에서는 Claude Opus 4.5를 호출해 10 KB 토큰 한도 내에서 확장 사고(extended thinking)를 수행하고, 패턴 결과와 RAG 결과를 종합해 PASS/WARNING/FAIL 판정을 내린다. 이 단계가 전체 지연(≈30 s)와 비용($0.13) 대부분을 차지한다.
Union 투표는 어느 하나의 에이전트라도 WARNING 혹은 FAIL을 반환하면 전체 결과를 경고로 표시한다. 이 방식은 리콜을 극대화해 82.7 %를 달성하지만, 정밀도가 48.8 %로 낮아 FPR이 85 %에 육박한다. 반면 가중치 투표는 에이전트 가중치와 판정 심각도·신뢰도를 곱해 점수를 산출해 37.7 % 리콜, 35.3 % FPR을 얻는다. 실험 결과, RAG를 제외하면 리콜이 92 %까지 상승하지만 FPR도 94 %로 급증한다는 점에서 RAG가 정밀도 향상에 기여함을 확인한다.
자체 일관성(self‑consistency) 샘플링을 보안 에이전트에 적용해 온도 1.0, 0.7, 0.9의 세 번 호출을 병렬로 수행하고 다수결로 최종 판정을 내렸다. 이는 변동성을 감소시키면서 추가 비용($0.26)과 지연(5 s)을 초래한다.
오류 분석에서는 100개의 취약 샘플 중 18개를 놓쳤으며, 주된 원인은 가장자리 케이스를 가진 정규화 함수, 암호학적 오류, 다파일 복합 취약점이었다. 반면 102개의 정상 샘플 중 86개가 오탐으로 표시돼 FPR이 매우 높았다. 이는 LLM이 패치된 코드와 취약 코드의 미세 차이를 구분하지 못해 발생한 것으로, 취약/패치 쌍에 대한 대비 학습이 필요함을 시사한다.
전반적으로 MultiVer는 파인튜닝 없이도 리콜 면에서 최첨단을 달성했지만, 높은 오탐률과 비용·지연 문제로 실시간 CI/CD 적용에는 부적합하다. 보안 감시 단계에서 인간 리뷰를 전제로 할 경우, 높은 리콜을 통한 위험 최소화가 정밀도 손실을 상쇄한다는 실용적 교훈을 제공한다. 향후 연구는 대비 학습, 지식‑레벨 RAG, 에이전트 간 상호 검증 등을 통해 FPR을 크게 낮추는 방향으로 진행될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기