토큰 위치가 좌우하는 LLM 탈옥 공격 효율성
초록
본 논문은 Greedy Coordinate Gradient(GCG) 탈옥 공격에서 공격 토큰을 접미사(suffix) 대신 접두사(prefix)로 최적화하고, 평가 시 토큰 위치를 변동시켰을 때 성공률(ASR)이 크게 변한다는 사실을 실증한다. 고정된 위치만을 평가하는 기존 안전성 검증은 실제 위험을 과소평가할 수 있음을 지적한다.
상세 분석
본 연구는 LLM 안전성 평가에서 간과되어 온 ‘토큰 위치’라는 새로운 공격 축을 제시한다. 기존 GCG 공격은 악의적인 토큰을 프롬프트 끝에 붙이는 suffix 방식만을 사용했으며, 이는 모델이 입력의 뒤쪽에 위치한 토큰에 더 큰 주의를 기울인다는 가정에 기반한다. 저자들은 이 가정을 뒤집어, 동일한 GCG 최적화 절차를 접두사(prefix) 형태로 적용하고, 최적화된 토큰을 접두사·접미사 양쪽 모두에 배치해 평가하였다.
실험은 다섯 개의 오픈소스 LLM(DeepSeek‑7B, Qwen2.5‑7B, Mistral‑7B, Llama‑2‑7B, Vicuna‑7B)을 대상으로 진행되었으며, 100개의 유해 프롬프트(AdvBench)와 GPT‑4 기반 판정자를 사용해 ASR을 측정했다. 결과는 두 가지 차원에서 의미 있게 나타난다. 첫째, 동일 모델 내에서 ‘최적화 위치’와 ‘평가 위치’를 일치시켰을 때(prefix와 suffix 중 어느 쪽이 우세한지는 모델마다 다르다. 예를 들어 Qwen2.5‑7B에서는 prefix 최적화가 60%→61%로 가장 높은 성공률을 보였고, Mistral‑7B에서는 suffix 최적화가 94%까지 도달했다. 둘째, ‘양쪽 위치 모두 평가(ASR@k=2)’했을 때는 대부분의 경우 성공률이 크게 상승했다. DeepSeek‑7B는 10%→15%, Vicuna‑7B는 83%→99%까지 상승했으며, 이는 토큰 위치 변동이 공격 효율성을 크게 증대시킴을 의미한다.
또한 교차 모델 전이 실험(표 2)에서도 동일한 경향이 관찰되었다. 공격 토큰을 prefix로 최적화했을 때는 일부 타깃 모델에서 전이 성공률이 크게 늘었고, 반대로 suffix 최적화가 유리한 경우도 존재했다. 특히 전이 성공률이 49%까지 상승한 사례는 고정된 위치만을 평가하면 놓치기 쉬운 위험을 드러낸다.
주의 메커니즘 분석에서는, 기존 연구가 제시한 ‘후반 레이어에서의 높은 어텐션’이 suffix에만 해당되는 현상임을 확인하고, prefix 경우는 초기 레이어에서 어텐션이 집중되는 경향을 보였다. 이는 어텐션만으로 공격 성공을 설명하기엔 한계가 있음을 시사한다.
결론적으로, 토큰 위치는 LLM 탈옥 공격의 성공에 결정적인 변수이며, 현재 안전성 평가 프로토콜에 ‘위치 다양성’ 검증을 포함시켜야 한다는 강력한 근거를 제공한다. 향후 연구는 다른 공격 기법(예: 자동 프롬프트 엔지니어링, 사전학습된 토큰 삽입)에도 동일한 위치 변화를 적용해 일반화 가능성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기