모델 컨텍스트 프로토콜 보안 벤치마크 MCPSecBench

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM과 외부 도구·데이터를 연결하는 표준인 Model Context Protocol(MCP)의 보안 위협을 체계화하고, 17가지 공격 유형을 포함한 보안 분류체계를 제시한다. 이를 기반으로 MCPSecBench라는 모듈형 벤치마크 플랫폼을 구축해 Claude, OpenAI, Cursor 세 MCP 구현을 평가했으며, 모든 공격면에서 취약점이 확인되고 기존 방어 메커니즘은 30% 이하의 차단율에 그쳤음을 보고한다.

상세 분석

논문은 먼저 MCP의 아키텍처를 클라이언트·서버·프로토콜·호스트 네 개의 구성요소로 분해하고, 각각에 대한 형식적 보안 사양을 정의한다. 클라이언트 측에서는 프롬프트 인젝션 방지를 위해 “Secure(p) ∧ ValidTools(p)”라는 제약을 두고, 프로토콜 층에서는 전송 무결성을 “Received(m) ⇒ Sent(m)”으로 명시한다. 서버 측 사양은 도구 실행 전 검증(Verified)과 응답이 초기 프롬프트와 충돌하지 않음을 보장하도록 설계했으며, 호스트 측은 모든 부작용 연산이 권한 부여된 경우에만 수행되도록 “Authorized(op) ∧ ValidConf(C)”를 요구한다. 이러한 사양은 공격 표면을 네 가지로 구분하는 근거가 되며, 17개의 구체적 공격 유형을 도출한다.

MCPSecBench는 (1) 프롬프트 데이터셋, (2) 취약·악성 MCP 서버, (3) 취약 클라이언트 구현(CVE‑2025‑6514 포함), (4) 프로토콜 공격 스크립트(Man‑in‑the‑Middle, DNS rebinding 등), (5) GUI 기반 테스트 허브, (6) 방어 메커니즘(방화벽, 입력 필터링 등)으로 구성된다. 모듈형 설계 덕분에 연구자는 새로운 클라이언트·서버·전송 프로토콜을 플러그인 형태로 추가할 수 있다.

실험에서는 Claude Desktop(Anthropic Opus 4.5), OpenAI GPT‑4.1, Cursor v2.3.29 세 플랫폼을 대상으로 각 공격 유형을 실행했다. 결과는 다음과 같다.

코어 프로토콜·호스트 취약점은 세 플랫폼 모두에서 성공률이 100%에 육박했으며, 특히 Prompt Injection은 Claude에서 0%(방어 성공)였지만 Cursor에서는 100%로 완전 취약했다.
서버 측 공격(예: 악성 툴 리스트 반환, 권한 우회)은 Claude와 OpenAI는 부분적으로 방어했지만, Cursor는 전반적으로 방어가 부재했다.
클라이언트 측 취약점은 CVE‑2025‑6514가 포함된 취약 클라이언트를 이용했을 때 모든 플랫폼에서 도구 호출이 변조되는 현상이 관찰되었다.
프로토콜 공격(MITM, DNS rebinding)은 HTTP 스트리밍 전송을 사용하는 경우 전송 무결성 검증이 미흡해 전부 성공했으며, stdio 기반 로컬 연결에서는 일부 방어가 작동했다.

방어 메커니즘 평가에서는 기존 입력 검증, 네트워크 방화벽, 실행 권한 제한 등이 적용되었지만, 평균 차단율은 30% 미만에 그쳤다. 특히 서버‑사이드 정책 enforcement가 미비하거나 호스트 설정이 잘못된 경우 방어가 무력화되는 경향이 뚜렷했다.

논문의 주요 기여는 (1) MCP 보안을 위한 형식적 사양과 17가지 공격 분류 체계 제공, (2) MCPSecBench라는 재현 가능하고 확장 가능한 벤치마크 플랫폼 구축, (3) 주요 상용 MCP 구현들의 보안 현황을 체계적으로 드러낸 점이다. 저자들은 MCPSecBench를 오픈소스로 공개해 향후 연구자들이 새로운 공격·방어 기법을 손쉽게 테스트하고, MCP 표준 자체에 보안 강화 권고안을 반영할 수 있도록 기대한다.

모델 컨텍스트 프로토콜 보안 벤치마크 MCPSecBench

초록

상세 분석

댓글 및 학술 토론

의견 남기기