이모지로 무너뜨린 대형 언어 모델 안전장치

이모지로 무너뜨린 대형 언어 모델 안전장치
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이모지 시퀀스를 텍스트 프롬프트에 삽입해 대형 언어 모델(LLM)의 안전 정렬 메커니즘을 우회하는 ‘이모지 기반 탈옥’ 기법을 조사한다. 50개의 이모지 프롬프트를 Mistral 7B, Qwen 2 7B, Gemma 2 9B, Llama 3 8B 네 모델에 적용해 탈옥 성공률, 안전성 유지 정도, 응답 지연을 측정하였다. 결과는 Gemma 2 9B와 Mistral 7B가 각각 10 %의 성공률을 보인 반면, Qwen 2 7B는 0 %로 완전 정렬을 유지함을 보여준다. χ² 검정(χ² = 32.94, p < 0.001)으로 모델 간 차이가 통계적으로 유의함을 확인하였다. 연구는 기존 이모지 공격이 안전 판단기나 분류기에 초점을 맞춘 것과 달리, 프롬프트 수준에서 직접 LLM을 노린 취약성을 실증적으로 제시한다.

상세 분석

이 연구는 최근 급증하고 있는 프롬프트 엔지니어링 기반 공격 중에서도 특히 시각적 기호인 이모지가 텍스트와 결합될 때 발생하는 비정형 입력 처리 문제에 주목한다. 이모지는 Unicode 표준에 따라 다양한 코드 포인트를 차지하지만, 대부분의 LLM 토크나이저는 이를 단일 토큰 혹은 여러 토큰으로 분리해 처리한다. 이러한 토큰화 과정에서 발생하는 불일치는 모델이 학습 단계에서 충분히 접하지 못한 입력 패턴을 만들며, 안전 정렬에 사용되는 규칙 기반 필터나 신경망 기반 안전 판단기가 오작동할 가능성을 높인다.

실험 설계는 50개의 이모지 시퀀스를 사전 정의된 위험 프롬프트와 결합한 형태로 구성하였다. 각 이모지 시퀀스는 의미가 없는 무작위 조합, 혹은 특정 감정·행동을 암시하는 조합(예: 🔥💣🗡) 등으로 다양화했으며, 이는 모델이 이모지를 텍스트와 동일한 의미 단위로 해석하도록 유도한다. 네 모델에 동일한 프롬프트를 입력한 뒤, 응답을 ‘성공(완전 탈옥)’, ‘부분 성공(일부 위험 내용 포함)’, ‘실패(안전 유지)’ 세 카테고리로 라벨링하였다.

통계 결과는 Gemma 2 9B와 Mistral 7B가 각각 5건(10 %)의 성공 사례를 보인 반면, Qwen 2 7B는 전혀 탈옥되지 않았음을 보여준다. Llama 3 8B는 2건(4 %)의 부분 성공을 기록했지만, 완전 성공은 없었다. χ² 검정 결과(χ² = 32.94, p < 0.001)는 모델 간 차이가 우연이 아니라 구조적 취약성 차이에 기인함을 강하게 시사한다.

추가 분석에서는 토크나이저별 이모지 처리 방식을 비교하였다. Qwen 2 7B는 이모지를 사전 학습 단계에서 다량 포함시킨 데이터셋을 사용했으며, 토크나이저가 이모지를 독립 토큰으로 일관되게 분리한다. 반면, Gemma 2 9B와 Mistral 7B는 이모지를 서브워드 단위로 분할해, 의미가 섞인 토큰 시퀀스를 생성한다. 이러한 차이가 안전 필터가 이모지를 무시하거나 오인하게 만드는 원인으로 작용한다.

또한, 응답 지연(Latency) 측정 결과는 이모지 포함 프롬프트가 일반 텍스트 대비 평균 12 % 정도 더 오래 처리되었으며, 이는 토큰화와 디코딩 단계에서 추가 연산이 필요함을 의미한다. 지연 자체는 공격 성공에 직접적인 영향을 주지는 않았지만, 실시간 서비스 환경에서 공격 탐지를 어렵게 만드는 부수적 요인으로 작용할 수 있다.

결론적으로, 이 연구는 이모지라는 비전통적 입력이 LLM의 안전 정렬 체계에 미치는 영향을 실증적으로 보여준다. 모델 설계 시 토크나이저와 안전 필터가 이모지와 같은 비정형 기호를 어떻게 처리하는지를 명시적으로 검증하고, 데이터 전처리 단계에서 이모지에 대한 표준화 혹은 필터링을 적용하는 것이 필요함을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기