실제 침투 테스트를 위한 우수 LLM 에이전트 설계 원칙

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 28개의 LLM 기반 침투 테스트 시스템을 분석하고, 5개의 대표 구현체를 3가지 벤치마크에서 평가한다. 결과는 실패 원인을 Type A(도구·프롬프트 부족)와 Type B(계획·상태 관리 부족)로 구분하고, Type B는 실시간 작업 난이도 추정 부재가 핵심 원인임을 밝힌다. 이를 해결하기 위해 도구·스킬 레이어와 난이도‑인식 플래닝을 결합한 Excalibur(또는 PENTESTGPT V2)를 제안한다. 난이도 평가(TDA)와 증거‑유도 공격 트리 탐색(EGATS)을 도입해 기존 시스템 대비 39‑49% 상대적 향상을 달성했으며, 특히 복합 AD 환경에서 4/5 호스트를 장악했다.

상세 분석

논문은 먼저 2023‑2025년 사이 발표된 28개의 LLM 기반 침투 테스트 시스템을 메타‑분석하고, 실제 구현이 가능한 5개 오픈소스 시스템을 선정해 XBO (웹 CTF), PentestGPT Benchmark(HTB·VulnHub), GO AD(엔터프라이즈 AD) 세 가지 난이도 구간에서 실험한다. 실험 결과, 모델 자체가 GPT‑4o에서 GPT‑5, GPT‑5.2 등 최신 모델로 교체될수록 시스템 간 성능 격차가 급격히 축소되는 현상이 관찰된다. 이는 기존 시스템이 ‘컨텍스트 요약’, ‘RAG‑기반 도구 문서화’, ‘다중 에이전트 역할 분리’ 등 2023년 모델의 한계를 보완하기 위한 설계에 의존했으며, 모델이 이러한 한계를 자체적으로 극복하면서 설계상의 이점이 사라진다는 것을 의미한다.

이러한 배경에서 저자들은 실패 원인을 두 가지 유형으로 정의한다. Type A는 ‘Capability Gap’으로, 필요한 도구가 없거나 프롬프트가 부적절해 발생한다. 이는 새로운 도구 인터페이스를 추가하거나 프롬프트 엔지니어링을 통해 비교적 쉽게 해결할 수 있다. 반면 Type B는 ‘Complexity Barrier’로, 다단계 공격 흐름을 계획하고 상태를 관리하는 능력이 부족해 발생한다. 특히 에이전트가 현재 작업의 난이도를 실시간으로 추정하지 못해, 낮은 가치의 경로에 과도한 리소스를 할당하거나 컨텍스트 한도를 초과해 중요한 정보를 잊어버리는 문제가 있다. 인간 침투 테스터가 직관적으로 수행하는 ‘작업 난이도 감지’가 결여된 것이 핵심 원인이다.

이를 검증하기 위해 저자들은 기존 시스템에 난이도 평가 모듈만을 추가한 대조 실험을 수행했다. 그 결과 Type B 실패 비율이 58%에서 27%로 크게 감소했으며, Type A 비율은 변하지 않아 난이도 인식이 복합적인 공격 시나리오에서 결정적인 역할을 함을 확인했다.

이러한 인사이트를 바탕으로 제안된 Excalibur(논문에서는 PENTESTGPT V2) 아키텍처는 두 개의 핵심 서브시스템으로 구성된다. 첫 번째는 ‘Tool and Skill Layer’로, 38개의 보안 도구와 공격 스킬을 타입‑세이프 인터페이스와 Retrieval‑Augmented Knowledge(RAG) 기반 지식베이스에 매핑한다. 이를 통해 Type A 실패를 원천 차단한다. 두 번째는 ‘Task Difficulty Assessment(TDA)’이다. TDA는 (1) Horizon Estimation — 예상 남은 단계 수, (2) Evidence Confidence — 수집된 증거의 신뢰도, (3) Context Load — 현재 컨텍스트 사용량, (4) Historical Success — 유사 과거 시도 성공률을 정량화한다. 이 네 가지 지표는 실시간으로 업데이트되며, EGATS(Evidence‑Guided Attack Tree Search) 알고리즘에 입력되어 탐색‑활용(Exploration‑Exploitation) 전략을 조정한다. 구체적으로, 난이도가 높게 평가된 경로는 조기에 가지치기되고, 증거 신뢰도가 충분히 쌓인 경우에만 깊이 탐색을 진행한다. 또한 외부 메모리 서브시스템을 도입해 LLM 컨텍스트를 보조하고, 장기적인 상태 정보를 유지한다.

실험에서는 Claude Opus 4.5, GPT‑5.2, Gemini‑3‑Pro 등 최신 모델을 사용해 5가지 설정을 비교했다. XBO 에서는 최고 91%(평균 89%)의 태스크 완수율을 기록했으며, 이는 기존 최고 61% 대비 49%의 상대적 향상이다. PentestGPT Benchmark에서는 13대의 머신 중 12대를 성공적으로 장악했으며, 특히 ‘Hard’ 난이도 머신에서 기존 시스템이 초기 단계에 머무는 반면, Excalibur은 적절한 난이도 판단 후 자동으로 ‘Privilege Escalation’까지 진행한다. GO AD 환경에서는 5대 중 4대를 완전 장악했으며, 이는 도메인 간 Kerberoasting, NTLM Relay, Credential Chaining 등을 연속적으로 수행한 결과이다.

Ablation Study에서는 (1) Tool Layer만 사용했을 때는 단기·단순 과제에서 높은 성능을 보였으나, (2) TDA‑EGATS만 적용했을 때는 복합 시나리오에서 큰 이득을 얻었고, (3) Memory Subsystem을 제외하면 컨텍스트 초과로 인한 실패가 급증한다는 점을 확인했다.

마지막으로 논문은 아직 해결되지 않은 한계를 짚는다. 새로운 제로‑데이 익스플로잇, 의도적인 방어 기법(허니팟, 미끼), 장기 캠페인(수주 단위) 등은 현재 LLM의 창의적 추론 및 장기 기억 능력을 초과한다. 따라서 완전 자동화된 침투 테스트는 아직 먼 목표이며, 향후 연구는 (a) 난이도 추정 모델의 정교화, (b) 다중 에이전트 협업 및 인간‑인‑루프 설계, (c) 보안 환경의 적대적 변동성에 대한 견고성 강화 등을 제안한다.

실제 침투 테스트를 위한 우수 LLM 에이전트 설계 원칙

초록

상세 분석

댓글 및 학술 토론

의견 남기기