LLM 에이전트와 고전 계획을 결합한 자동 침투 테스트 혁신

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자동 침투 테스트를 위한 “Planner‑Executor‑Perceptor (PEP)” 프레임워크를 제시하고, 기존 LLM 기반 시스템(Claude Code, Sonnet 4.5)의 성능을 평가한다. LLM 에이전트가 뛰어난 공격 능력을 보이지만 장기 계획 유지, 복합 논리 추론, 특수 도구 활용에 한계가 있음을 확인한다. 이를 보완하기 위해 Classical Planning+와 LLM을 결합한 CHECKMATE 프레임워크를 설계·구현했으며, Vulhub 벤치마크에서 성공률을 20 % 이상, 시간·비용을 50 % 이상 절감하는 성과를 얻었다.

상세 분석

이 논문은 자동화된 침투 테스트 분야에서 가장 큰 난관인 “키보드 손을 떼지 않은” 완전 자동화를 목표로 삼는다. 저자들은 먼저 기존 연구들을 체계적으로 분석하고, 자동 침투 테스트 시스템을 Planner, Executor, Perceptor라는 세 가지 핵심 모듈로 분해하는 PEP 패러다임을 제안한다. 이 구조는 각 모듈을 독립적으로 평가·개선할 수 있는 기반을 제공한다는 점에서 의미가 크다.

평가 단계에서는 현재 가장 성능이 뛰어난 LLM 기반 에이전트인 Claude Code와 Sonnet 4.5를 대상으로 Vulhub 데이터셋에서 자동 침투 테스트를 수행한다. 실험 결과, 두 모델은 기존 도구들보다 월등히 높은 성공률을 기록했으며, 특히 코드 정제와 서브태스크 관리에서 강점을 보였다. 그러나 상세 분석을 통해 세 가지 주요 약점이 드러난다. 첫째, LLM은 제한된 컨텍스트 길이와 기억력 때문에 장기적인 공격 경로를 일관되게 유지하지 못한다. 둘째, 복잡한 논리 추론—예를 들어, 여러 단계에 걸친 권한 상승이나 방어 회피 전략—에서 오류가 빈번히 발생한다. 셋째, Metasploit 같은 특수 도구나 최신 익스플로잇을 직접 호출하는 능력이 부족해, 종종 인간이 개입해 명령을 교정해야 하는 상황이 발생한다. 이러한 약점은 전체 시스템의 효율성·안정성을 저해한다.

이를 해결하기 위해 저자들은 Classical Planning+라는 새로운 계획 기법을 도입한다. 전통적인 고전 계획은 상태를 명시적 프레디케이트와 전후조건으로 모델링해 DAG 형태의 계획 그래프를 생성한다. 그러나 고전 계획은 완전 관측·결정론적 환경에만 적용 가능하다는 한계가 있다. Classical Planning+는 LLM을 활용해 실행 중에 동적으로 상태와 행동 효과를 업데이트함으로써, 부분 관측·비결정론적 상황에서도 계획을 유지한다. 즉, LLM은 “지식 보강자” 역할을 하여 새로운 스캔 결과나 오류 메시지를 즉시 플래너에 반영한다.

CHECKMATE 시스템은 이 Classical Planning+를 Planner로, LLM 에이전트를 Executor로, 그리고 LLM 기반 변환기를 Perceptor로 배치한다. 플래너는 현재 공격 상태와 가능한 행동 집합을 평가해 최적의 다음 단계를 선택하고, Executor는 사전 정의된 특수 도구와 명령을 실행한다. 실행 결과는 Perceptor가 구조화된 프레디케이트 형태로 변환해 플래너에 피드백한다. 이 루프는 인간 개입 없이도 장기적인 공격 경로를 일관되게 유지하고, 복잡한 논리 흐름을 정확히 추론하도록 만든다.

실험 결과, CHECKMATE는 Claude Code 대비 성공률을 20 % 이상 끌어올렸으며, 평균 실행 시간과 클라우드 비용을 각각 55 %와 52 % 정도 절감했다. 특히, 권한 상승 단계와 방어 회피 단계에서의 실패가 크게 감소했으며, 특수 도구(예: Nmap, Metasploit 모듈) 활용도 크게 향상되었다. 이러한 성과는 PEP 패러다임과 Classical Planning+가 LLM의 약점을 보완하면서도 LLM의 자연어 이해·코드 생성 능력을 그대로 활용할 수 있음을 입증한다.

전체적으로 이 논문은 자동 침투 테스트에 대한 새로운 설계 원칙을 제시하고, LLM과 전통적 AI 기법을 결합한 하이브리드 접근법이 실제 보안 평가에서 실용적인 이점을 제공한다는 점을 강조한다. 향후 연구는 시각적 정보 처리, 멀티에이전트 협업, 그리고 실시간 방어 대응 모델링 등으로 확장될 수 있다.

LLM 에이전트와 고전 계획을 결합한 자동 침투 테스트 혁신

초록

상세 분석

댓글 및 학술 토론

의견 남기기