의도와 맥락 결합을 이용한 효율적 다중턴 탈옥 공격

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ICON은 악의적 의도를 사전 정의된 맥락 패턴과 결합해 권위적인 대화 흐름을 빠르게 구축하고, 계층적 최적화 전략으로 단계별 프롬프트를 조정함으로써 8개 최신 LLM에 대해 평균 97.1%의 공격 성공률을 달성한 자동화된 다중턴 탈옥 프레임워크이다.

상세 분석

본 논문은 LLM 안전 장치를 우회하는 다중턴 jailbreak 공격의 효율성 문제를 ‘Intent‑Context Coupling(ICC)’ 현상에 기반해 해결한다. ICC는 악의적 의도와 의미적으로 일치하는 대화 맥락이 결합될 때 모델이 안전 제약을 완화하고, 답변을 더 협조적으로 만든다는 가설이다. 저자들은 5가지 맥락 패턴(과학 연구, 개인 서술, 허구 시나리오, 정보 검색, 문제 해결)을 악성 의도(해킹, 프라이버시 침해, 허위 정보 등)와 전면 교차시켜 250개의 샘플을 생성하고, Claude‑4.5‑Sonnet을 대상으로 StrongREJECT 점수를 측정하였다. 결과는 특정 의도‑맥락 쌍에서 점수가 급격히 상승하는 비균등한 분포를 보이며, 특히 ‘허위 정보‑문제 해결’ 조합이 1.0에 도달하는 등 ICC 현상이 실증적으로 확인되었다.

이러한 통찰을 바탕으로 제안된 ICON은 세 단계로 구성된다. ① Intent‑Driven Context Routing에서는 악의적 의도를 자동 분석하고, 사전 구축된 의도‑맥락 매핑 테이블을 활용해 가장 높은 성공 가능성을 가진 맥락 패턴을 선택한다. ② Adversarial Context Instantiation에서는 선택된 패턴을 권위적인 템플릿(예: 학술 논문 형식)으로 구체화하고, 단계별 설정 프롬프트를 생성해 대화 히스토리를 빠르게 구축한다. ③ Hierarchical Optimization Strategy는 두 층의 최적화를 적용한다. 전술적 최적화는 개별 프롬프트의 문구를 미세 조정해 초기 실패를 복구하고, 전략적 최적화는 현재 맥락이 의도와 불일치할 경우 전체 맥락을 교체하거나 새로운 패턴으로 전환한다. 이러한 계층적 접근은 기존 연구가 겪는 ‘의미적 표류’ 문제를 효과적으로 방지한다.

실험에서는 GPT‑4o, Claude‑3, Llama‑2‑Chat, Gemini‑1.5 등 8개의 최신 모델을 대상으로 200개의 악성 쿼리를 테스트했다. ICON은 평균 ASR 97.1%를 기록했으며, 특히 고정밀 안전 필터가 적용된 모델에서도 90% 이상의 성공률을 보였다. 비교 대상인 ActorAttack, FITD, AutoDAN‑Turbo 등은 70% 이하에 머물렀다. 또한, 프롬프트 수와 API 호출 횟면에서도 ICON은 기존 방법 대비 40%~60% 적은 비용으로 동일하거나 높은 성공률을 달성했다.

한계점으로는 사전 정의된 의도‑맥락 매핑이 제한적일 수 있다는 점과, 새로운 의도나 도메인이 등장했을 때 매핑 업데이트가 필요하다는 점을 들 수 있다. 또한, 본 연구는 주로 영어 기반 LLM을 대상으로 했으며, 다국어 모델에 대한 일반화 검증이 부족하다. 향후 연구에서는 동적 매핑 학습, 멀티모달 컨텍스트 확장, 그리고 방어 측면에서 ICC 현상을 탐지·완화하는 메커니즘을 개발할 여지가 있다.

의도와 맥락 결합을 이용한 효율적 다중턴 탈옥 공격

초록

상세 분석

댓글 및 학술 토론

의견 남기기