멀티턴 탈옥 공격과 FragGuard 방어: 멀티모달 LLM 보안 심층 분석
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)에 대한 멀티턴 탈옥 공격 기법을 제안하고, 이를 방어하기 위한 프래그가드(FragGuard)라는 조각 기반 다중 LLM 방어 메커니즘을 설계·평가한다. 실험 결과, 제안 공격은 최신 오픈·폐쇄형 MLLM에서 90%에 육박하는 성공률을 보였으며, FragGuard는 높은 거부율과 낮은 독성 점수로 효과적인 방어를 입증한다.
상세 분석
본 연구는 먼저 멀티모달 대형 언어 모델(MLLM)의 구조적 특성을 분석한다. 저자는 비전-언어 모델(LVLM)을 대표 사례로 삼아, 시각 모듈 → 커넥터 → 텍스트 모듈이라는 3단계 파이프라인을 제시하고, 안전 가드레일이 텍스트 모듈에 주로 구현돼 있어 시각 입력을 통한 우회가 가능함을 지적한다. 이러한 구조적 약점을 이용해 ‘멀티턴 탈옥(Multi-turn Jailbreaking)’ 공격을 설계한다. 공격자는 먼저 이미지에 타이포그래피 형태로 금지된 문구를 삽입하고, 1턴에서는 이미지 설명이라는 무해한 질문을, 2턴에서는 가상의 시나리오(예: 영화 대본) 작성을 요구하며 모델을 점진적으로 위험한 컨텍스트에 노출시킨다. 마지막 3턴에서 금지 문구를 직접 요청하면, 모델은 이전 대화 흐름에 의해 방어 메커니즘이 완화된 상태라 위험한 응답을 생성한다. 이 단계적 접근은 기존 단일턴 탈옥보다 높은 성공률을 보이며, 특히 작은 파라미터 모델(LLaVA‑7B)에서 91.5%까지 도달한다.
방어 측면에서는 ‘FragGuard’를 제안한다. 핵심 아이디어는 모델이 생성한 응답을 고정 길이 토큰 조각으로 분할하고, 각 조각을 서로 다른 세 종류의 LLM(오픈AI o1, 구글 Gemini‑2.5‑Flash‑lite, 메타 LLaMA‑3)에게 독성 점수를 부여받는 것이다. 최종 독성 점수는 모든 조각·모델에서의 최대값을 취해 보수적으로 판단한다. 사전 정의된 임계값 τ를 초과하면 원본 응답을 차단하고 “죄송합니다, 해당 요청에 응답할 수 없습니다”라는 안전 응답을 반환한다. 이 설계는 별도 파인튜닝 없이도 적용 가능하며, 다중 모델을 활용함으로써 단일 모델의 편향이나 오판을 최소화한다.
실험은 4대 NVIDIA A100 GPU 환경에서 수행되었으며, MM‑SafetyBench(13개 금지 시나리오)과 Stable Diffusion으로 생성된 타이포그래피 이미지 1,000여 개를 사용했다. 평가 지표는 공격 성공률(ASR), 평균 독성 점수(ATS), 그리고 방어 시 거부율(RR)이다. 결과는 다음과 같다. (1) 멀티턴 공격은 턴이 진행될수록 ASR이 상승했으며, Gemini‑2.0‑Flash는 82.3%의 높은 성공률을 보였다. (2) 모델 규모가 클수록(LLaVA‑13B vs 7B) 방어 효과가 향상되었다. (3) FragGuard 적용 시 RR이 78% 이상으로 상승했고, ATS는 1.2 이하로 크게 감소했다. 특히 폐쇄형 GPT‑4o는 방어 적용 시 94%의 거부율을 기록, 가장 강력한 방어 성능을 보였다.
이 논문은 멀티모달 모델이 시각·텍스트 복합 입력을 처리하는 과정에서 발생하는 새로운 공격 표면을 최초로 체계화하고, 조각 기반 다중 LLM 평가라는 실용적 방어 프레임워크를 제시함으로써 향후 MLLM 보안 연구에 중요한 기준점을 제공한다. 또한, 공격·방어 모두 블랙박스 설정에서 수행 가능하다는 점은 실제 서비스 환경에서의 적용 가능성을 높인다. 다만, FragGuard의 실시간 처리 비용과 다중 LLM 호출에 따른 지연이 존재하므로, 경량화 방안과 비용‑효과 분석이 향후 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기