MCP 생태계 보안·안전 체계화 연구

초록

Model Context Protocol(MCP)은 LLM과 외부 도구를 연결하는 표준 인터페이스로, 에이전트 AI의 ‘USB‑C’ 역할을 한다. 본 SoK는 MCP의 핵심 원시자(Resource, Prompt, Tool)와 다중 에이전트 환경에서 발생하는 위협을 보안(프롬프트 인젝션·툴 중독)과 안전(정렬 실패·에피스테믹 오류)으로 구분하고, 암호학적 출처 검증, 런타임 의도 확인 등 최신 방어 기법을 정리한다. 또한, 대화형 챗봇에서 자율 운영 체제로 전환할 때 필요한 로드맵을 제시한다.

상세 요약

Model Context Protocol(MCP)은 LLM이 외부 리소스와 상호작용할 때 ‘컨텍스트’를 분리함으로써 모듈화와 재사용성을 크게 향상시켰다. 그러나 이 설계는 기존 시스템에서 흔히 구분되던 ‘지식 오류(환각)’와 ‘보안 침해’를 하나의 공격 표면으로 결합한다는 근본적인 위험을 내포한다. 논문은 MCP의 세 가지 기본 원시자—Resources(데이터·파일·API 엔드포인트), Prompts(LLM에 전달되는 텍스트 명령), Tools(실행 가능한 함수·스키마)—를 구조적으로 분석한다. Resources는 인증·인가 메타데이터가 부족할 경우 악의적인 에이전트가 민감 정보를 탈취하거나 변조할 수 있다. Prompt는 간접 프롬프트 인젝션(indirect prompt injection) 공격에 취약한데, 이는 공격자가 다중 단계 프롬프트 체인에 숨겨진 악성 명령을 삽입해 LLM이 의도치 않은 Tool을 호출하도록 만든다. Tool 자체는 입력 검증이 미비하면 ‘툴 포이즈닝(tool poisoning)’에 노출되어, 정상적인 함수 호출을 변조하거나 악성 코드를 실행한다. 특히 다중 에이전트 시나리오에서 하나의 에이전트가 생성한 컨텍스트가 다른 에이전트의 의사결정에 직접 영향을 미치면, 에피스테믹 오류가 보안 위협으로 전이되는 ‘컨텍스트 전이 공격(context spillover)’이 발생한다.

논문은 이러한 위협을 보안과 안전 두 축으로 구분한다. 보안 측면에서는 인증·무결성·권한 부여가 핵심이며, 직접 프롬프트 인젝션, 툴 포이즈닝, 리소스 스푸핑을 방어한다. 안전 측면에서는 정렬(alignment) 실패, 목표 충돌, 도구 위임 시 발생하는 ‘목표 전이(goal drift)’를 방지한다. 저자는 기존 방어 메커니즘을 세부적으로 평가한다. 암호학적 출처 검증(ETDI: Encrypted Tool Descriptor Identifier)은 Tool과 Prompt 사이에 서명된 메타데이터를 삽입해 변조를 탐지한다. 런타임 의도 검증(Runtime Intent Verification)은 LLM이 생성한 명령이 사전 정의된 정책과 일치하는지 실시간으로 판단한다. 또한, ‘컨텍스트 격리(Context Sandbox)’와 ‘다중 레이어 검증(Multi‑Layer Verification)’을 결합한 하이브리드 방어 체계가 제안된다.

마지막으로, 논문은 MCP가 대화형 챗봇을 넘어 자율 에이전트 운영 체제로 진화할 경우, 정책 관리·감사·책임 추적이 필수적이라고 강조한다. 이를 위해 ‘정책 체인(Policy Chain)’과 ‘책임 로그(Responsibility Ledger)’를 블록체인 기반으로 구현하고, 인간‑인증 루프(Human‑in‑the‑Loop)와 자동화된 위험 평가 엔진을 통합하는 로드맵을 제시한다. 이러한 접근은 보안과 안전을 동시에 만족시키는 ‘신뢰 가능한 에이전트 인프라’를 구축하는 데 핵심적인 방향성을 제공한다.

초록

상세 요약

📜 논문 원문 (영문)