대형 언어 모델 목표 탈취를 위한 가짜 대화 주입 공격
초록
본 논문은 LLM의 대화 맥락과 역할 인식 취약점을 이용해 목표 탈취를 수행하는 새로운 프롬프트 주입 기법인 가짜 대화 주입(PC‑Inj)을 제안한다. 시나리오 맞춤형, 범용형, 템플릿‑프리 세 가지 변형을 설계하고, ChatGPT와 Qwen을 대상으로 실험해 기존 방법보다 높은 성공률을 보임을 입증한다. 또한 실패 사례 분석과 방어 방안을 제시한다.
상세 분석
이 연구는 기존 목표 탈취 공격이 “ignore above, output …”와 같이 명시적인 명령에 의존하는 한계를 지적하고, LLM이 대화 흐름을 토큰 수준에서만 파악하고 실제 발화자를 검증하지 못한다는 근본적인 설계 결함을 활용한다. 저자는 악의적인 접미사에 <|im_start|>·<|im_end|>와 같은 챗 템플릿 마커를 삽입해, 모델이 사용자의 초기 질의를 이미 처리된 것으로 오인하도록 만든다. 이후 삽입된 “사용자” 질문에 대해 공격자가 원하는 답변을 강제한다.
세 가지 변형은 다음과 같다.
- 시나리오 맞춤형(Pseudo‑Conversation Tailored): 초기 질의에 대한 자연스러운 답변을 직접 생성하고, 그 뒤에 악의적 명령을 연결한다. 가장 높은 성공률(≈92% GPT‑4o)과 최소 탐지 가능성을 제공하지만, 각 질의마다 맞춤형 프롬프트를 설계해야 하는 비용이 크다.
- 범용형(Generalized): “죄송합니다, 답변할 수 없습니다.”와 같은 일반적인 거절 문구를 고정 답변으로 사용한다. 템플릿 작성이 간단해 적용 범위가 넓지만, 비자연스러운 거절 문구가 모델의 내부 필터링에 걸릴 위험이 있어 성공률이 다소 낮다.
- 템플릿‑프리(Template‑Free): 모델이 사용하는 정확한 마커를 모를 경우를 대비해 “Assistant:”·“User:”와 같은 자연어 레이블만 사용한다. 가장 낮은 성공률을 보이지만, 보안 시스템이 마커 기반 필터링을 적용했을 때 우회 가능성을 확보한다.
실험은 Safety‑Prompts 데이터셋의 목표 탈취 항목을 테스트베이스로 삼아, GPT‑4o, GPT‑4o‑mini, Qwen‑2.5 세 모델에 적용했다. 성공률은 시나리오 맞춤형이 가장 높았으며, 범용형·템플릿‑프리도 기존 베이스라인(명시적 명령 주입) 대비 20~30%p 향상된 결과를 보였다. 또한 표준편차를 통해 공격의 안정성도 확인했으며, 대부분의 실패는 모델이 “거절” 혹은 “안전” 토큰을 자동 삽입하면서 발생했다.
실패 사례 분석을 통해 저자는 (1) 모델이 자체적으로 “불가능” 혹은 “위험” 판단을 내릴 때, (2) 대화 마커가 누락되거나 비정형화될 때, (3) 사전 학습된 안전 지침이 강하게 작동할 때 공격이 무산된다고 결론짓는다. 이를 바탕으로 제안된 방어책은 (가) 대화 히스토리의 발화자 검증, (나) 마커 기반 입력 정규화, (다) 비정형 텍스트에 대한 안전 필터링 강화 등이다.
이 논문은 LLM의 대화형 인터페이스가 보안 공격 표면을 크게 확대한다는 점을 강조하며, 특히 자동 채점, 고객지원, 법률·의료 상담 등 고위험 도메인에서의 실시간 대화 흐름 검증 필요성을 역설한다. 향후 연구는 다중턴 대화에서의 연쇄적 가짜 삽입, 멀티모달 프롬프트에 대한 확장, 그리고 방어 메커니즘의 실시간 적용 가능성을 탐색해야 할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기