채팅 템플릿을 이용한 프롬프트 인젝션 공격

채팅 템플릿을 이용한 프롬프트 인젝션 공격
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 기반 에이전트가 외부 도구의 출력에 포함된 악의적 명령을 오인하도록 하는 새로운 간접 프롬프트 인젝션 기법인 ChatInject를 제안한다. 공격자는 정규 채팅 템플릿을 모방해 역할 태그를 위조하고, 다중 턴 설득 대화를 하나의 응답에 삽입함으로써 기존 방어를 회피한다. 실험 결과, ChatInject는 기존 평문 기반 인젝션 대비 ASR을 5배 이상 향상시키며, 폐쇄형 모델에도 전이 가능함을 보였다.

상세 분석

ChatInject는 LLM 에이전트가 채팅 템플릿(시스템·유저·어시스턴트·툴 출력 등) 기반 역할 구분에 의존한다는 점을 공격 표면으로 활용한다. 기존 연구는 주로 순수 텍스트를 삽입해 프롬프트를 교란했지만, 이 논문은 두 가지 핵심 취약점을 발견한다. 첫째, 역할 태그가 명시적인 토큰(, 등)으로 구현돼 있기 때문에 공격자는 툴 출력에 이러한 토큰을 삽입해 낮은 우선순위의 메시지를 높은 우선순위 역할로 위장할 수 있다. 둘째, 다중 턴 설득 기법을 단일 툴 응답에 가상 대화 흐름으로 압축함으로써, 에이전트가 “대화 맥락”을 신뢰하도록 유도한다. 이를 위해 논문은 네 가지 페이로드 변형을 정의한다. (1) Plain‑I_a: 기존 평문 인젝션, (2) Model‑I_a: 공격 명령을 모델 전용 역할 태그로 감싸는 ChatInject, (3) Plain‑C_a: 설득 대화를 평문 형태로 삽입, (4) Model‑C_a: 설득 대화와 역할 태그를 모두 적용한 최상위 변형. 페이로드 생성에는 GPT‑4.1을 활용해 7턴 정도의 설득 대화를 자동 생성하고, 인간 검수를 거쳐 일관성을 확보한다. 실험은 AgentDojo와 InjecAgent 두 벤치마크, 총 9개 최신 모델(오픈소스 6종, 폐쇄형 3종)을 대상으로 수행되었다. 결과는 ChatInject가 평균 ASR을 32%→45% 수준으로 끌어올리고, 특히 Model‑C_a 변형은 InjecAgent에서 52% 이상의 성공률을 기록했다. 또한, 동일 페이로드가 모델 간 전이성을 보이며, 템플릿 구조를 모르는 경우에도 “템플릿 혼합” 전략으로 높은 성공률을 유지한다. 기존 방어(프롬프트 필터링, 역할 기반 차단)는 ChatInject, 특히 다중 턴 변형에 거의 무력함을 보였다. 논문은 이러한 취약점이 LLM 에이전트 설계 시 역할 토큰에 대한 과도한 신뢰를 재고하고, 동적 토큰 검증·컨텍스트 무결성 검증 등 새로운 방어 메커니즘이 필요함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기