코드 혼합 음성 교란으로 LLM 안전성 우회
초록
본 논문은 코드‑믹싱과 텍스트에세(phonetic perturbation)를 결합한 CMP‑RT 기법을 제안한다. CMP‑RT는 토크나이저 수준에서 안전 방어를 회피하도록 설계된 입력을 생성해, 다국어 정렬된 최신 LLM(Gemini‑3‑Pro 등)에서도 높은 공격 성공률을 보인다. 실험 결과는 기존 방어 체계가 이러한 비표준 입력에 취약함을 보여주며, 토크나이저 설계가 안전 파이프라인에서 간과된 약점임을 강조한다.
상세 분석
CMP‑RT는 크게 세 단계로 구성된다. 첫 번째 단계는 기존 영어 질문을 가상의 시나리오 형태로 변환해 기본 프롬프트 집합(English set)을 만든다. 두 번째 단계에서는 힌디어를 매개 언어로 삼아 영어 단어를 힌디어 문자로 전사(code‑mixing)하고, 이 과정에서 텍스트에세 스타일의 비표준 철자를 삽입한다. 세 번째 단계는 안전에 민감한 키워드(예: “DDOS attack”)를 발음은 유지하되 철자를 의도적으로 오탈자 형태(“dee dee o es atak”)로 바꾸는 phonetic perturbation이다. 이렇게 생성된 CMP 프롬프트는 인간이 읽기에 여전히 원문 의미와 발음이 일치하지만, 토크나이저가 이를 서로 다른 서브워드 토큰으로 분할하게 만든다.
실험에서는 8B 규모의 4개 텍스트 모델(ChatGPT‑4o‑mini, Llama‑3‑8B‑Instruct, Gemma‑1.1‑7B‑it, Mistral‑7B‑Instruct)와 멀티모달 모델(Gemini‑2.5‑Flash‑Image, Nano Banana Pro) 총 6종을 대상으로 460개의 텍스트 프롬프트와 110개의 이미지 프롬프트를 평가했다. 평가 지표는 Attack Success Rate(AASR)와 Attack Relevance Rate(AARR)이며, GPT‑4o‑mini를 LLM‑as‑judge로 활용해 자동 채점하였다.
주요 결과는 다음과 같다. ① “None” 템플릿(즉, 별도 공격 프롬프트 없이)에서 CMP 입력은 영어와 CM 입력에 비해 AASR을 현저히 상승시켰다. 특히 Gemma와 Mistral은 CMP‑RT만으로도 0.9 이상, 최악의 경우 0.99에 달하는 성공률을 보였다. ② 기존 템플릿(OM, AntiLM, AIM, Sandbox)과 결합하면 대부분 모델에서 AASR이 0에 가까워지지만, Gemma와 Mistral은 여전히 높은 성공률을 유지해 템플릿 기반 방어가 완전하지 않음을 시사한다. ③ 토크나이저 수준의 취약성을 확인하기 위해 Integrated Gradients를 적용한 해석 실험에서, CMP 입력은 안전 키워드 토큰의 임베딩을 변형시켜 해당 토큰에 대한 기여도를 급격히 감소시켰다. 이는 모델이 “I cannot provide…”와 같은 안전 응답을 생성할 때 핵심 토큰을 무시하게 만든다. ④ 이미지 생성 모델에서도 동일한 현상이 관찰돼, CMP 프롬프트가 텍스트‑투‑이미지 파이프라인의 필터링 단계를 우회해 위험한 시각 콘텐츠를 생성하도록 만든다. ⑤ 자동화 파이프라인을 구축해 521개의 AdvBench 프롬프트를 CMP 형태로 변환했을 때, Llama‑3‑8B‑Instruct는 0.5 온도 설정에서 AASR 0.84, AARR 0.78을 기록, 자동화된 대규모 공격이 실현 가능함을 입증했다.
또한 방어 실험에서는 OpenAI Moderation API와 퍼플렉시티 기반 필터링을 적용했지만, CMP 입력은 여전히 높은 회피율을 보였다. 이는 현재 상용 필터링이 표준 맞춤법과 토큰 시퀀스에 의존하고, 비표준 발음 기반 변형을 탐지하지 못한다는 한계를 드러낸다.
전반적으로 논문은 (1) 토크나이저 설계가 안전 파이프라인의 핵심 약점이며, (2) 코드‑믹싱·음성 교란이라는 현실적인 언어 사용 패턴이 모델의 안전성을 크게 위협한다는 두 가지 인사이트를 제공한다. 향후 연구는 토크나이저 레벨에서의 정규화, 다중 언어 음성 교란에 대한 사전 학습, 그리고 비표준 입력을 포괄하는 방어 메커니즘 설계가 필요함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기