음성 서사 공격으로 대형 오디오‑언어 모델을 우회하다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 텍스트‑투‑스피치(TTS) 모델을 이용해 권위·공감·긴박감 등 다양한 전달 스타일을 입힌 서사형 음성을 생성하고, 이를 대형 오디오‑언어 모델(LALM)의 안전 필터를 회피하는 새로운 ‘음성 서사 공격’ 방법을 제안한다. 실험 결과, Gemini 2.0 Flash 등 최신 LALM에 대해 98.26%의 성공률을 기록했으며, 기존 텍스트 기반 혹은 저수준 신호 변조 공격보다 평균 26% 높은 성공률을 보였다.
상세 분석
이 연구는 기존 텍스트 기반 혹은 단순 음성 변조(jitter, accent) 공격이 오디오‑언어 모델의 안전 메커니즘을 충분히 회피하지 못한다는 점을 지적하고, ‘전달 방식 자체’를 공격 표면으로 삼는 새로운 패러다임을 제시한다. 저자들은 고성능 instruction‑following TTS 모델을 활용해 동일한 텍스트 내용에 대해 다섯 가지 프로소디 스타일(권위적 요구, 친화적 설득, 긴급 지시, 치료적 억양, 공연적 강조)을 설계하였다. 각 스타일은 pitch, tempo, intensity, rhythm 등 구체적인 파라미터로 정의되며, 이는 인간 심리학에서 권위·신뢰·긴박감 등을 유발하는 요소와 일치한다.
위험 모델은 완전한 블랙박스 상황을 가정한다. 공격자는 오디오 입력만을 통해 모델 M:A→Y를 조작하고, 목표는 모델이 안전 정책에 위배되는 R 집합의 출력을 생성하도록 하는 것이다. 수식 (2)·(4)에서 보듯, 텍스트 x는 고정하고 스타일 벡터 s를 최적화함으로써 Pr
댓글 및 학술 토론
Loading comments...
의견 남기기