패턴 기반 다중턴 탈옥 공격: 대형 언어 모델의 구조적 취약점 분석
초록
본 논문은 다중턴 대화에서 LLM을 우회하는 새로운 공격 프레임워크 PE‑CoA를 제안한다. 다섯 가지 대화 패턴(기술, 개인, 가설, 정보, 문제해결)을 정형화하고, 12개 모델과 10개 해악 카테고리에 대해 실험한다. 결과는 모델마다 패턴별 취약도가 다르고, 한 패턴에 대한 방어가 다른 패턴에는 적용되지 않으며, 동일 계열 모델은 유사한 실패 양상을 보임을 보여준다. 이는 현재 안전 학습이 패턴 다양성을 충분히 반영하지 못한다는 점을 시사한다.
상세 분석
PE‑CoA는 기존의 다중턴 탈옥 연구가 갖는 ‘무작위 탐색’ 한계를 극복하기 위해 대화 구조를 명시적으로 모델링한다. 저자들은 대화 패턴을 Sacks의 대화 분석, Austin의 발화 이론, 그리고 사회공학 연구에 기반해 다섯 가지 유형으로 분류하고, 각 패턴을 단계별(Concept→Application→Implementation 등)로 세분화하였다. 이러한 단계 정의는 공격 프롬프트가 안전 필터를 회피하면서도 점진적으로 목표 해악을 구체화하도록 설계되었다.
공격 최적화 목표는 전통적인 의미적 상관성(E)와 패턴 적합도(A)를 가중합(λ·E+(1‑λ)·A)으로 결합한 복합 점수를 최대화하는 것이다. 이는 단순히 ‘해악을 포함한 문장’을 찾는 것이 아니라, 대화 흐름이 자연스럽게 진행되면서도 안전 검증을 회피하도록 유도한다는 점에서 혁신적이다.
실험에서는 12개의 LLM(Claude‑3, GPT‑4o‑mini, DeepSeek‑Chat 등)과 10개의 해악 카테고리(폭력, 불법 행위, 허위 정보 등)를 대상으로 각 패턴별 성공률을 측정했다. 결과는 모델마다 특정 패턴에 대한 취약도가 크게 다름을 보여준다. 예를 들어 DeepSeek‑Chat은 ‘문제해결’ 패턴에서 84%의 성공률을 기록했으며, GPT‑4o‑mini는 ‘정보’ 패턴에서 73.6%로 가장 높은 성과를 보였다. 이는 모델의 사전 학습 데이터와 안전 데이터가 패턴별로 편향될 가능성을 시사한다.
또한 방어 실험에서는 LoRA 기반 파인튜닝이 특정 패턴에 대해 높은 차단 효과를 보였지만, Gradient‑Based Unlearning이나 SelfDefend과 같은 보다 일반화된 방어는 모든 패턴에 고르게 적용되지 못했다. 이는 방어가 ‘패턴‑특이적’일 때는 강력하지만, 다른 패턴에 대한 전이 효과가 약함을 의미한다.
마지막으로 모델 패밀리 간의 취약도 상관관계를 분석한 결과, 동일 아키텍처(예: Gemini 시리즈) 내에서는 패턴‑카테고리 조합에 대한 성공률이 0.9 이상의 높은 상관성을 보였다. 이는 구조적 설계가 패턴 취약성에 큰 영향을 미친다는 중요한 통찰을 제공한다.
이러한 분석을 통해 저자들은 현재 안전 학습이 ‘직접적인 해악 요청’에만 초점을 맞추고, 복합적인 대화 흐름을 충분히 커버하지 못한다는 한계를 명확히 밝혔다. 따라서 향후 방어 전략은 패턴 인식 및 차단 메커니즘을 포함한 다층적 접근이 필요함을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기