음성 모델을 이용한 은밀한 악성 명령 주입: WhisperInject 공격 분석
초록
본 논문은 WhisperInject라는 두 단계 공격 프레임워크를 제안한다. 첫 단계에서는 RL‑PGD라는 보상 기반 백색‑박스 최적화를 통해 오디오‑언어 모델이 스스로 생성한 위험한 응답을 발견하고, 두 번째 단계에서는 해당 응답을 미세한 파형 교란으로 benign 오디오(날씨 질문 등)에 삽입한다. 실험 결과 5개의 최신 멀티모달 LLM에 대해 60‑78%의 성공률을 기록했으며, 인간 청취자는 변형을 거의 인지하지 못한다.
상세 분석
WhisperInject은 기존 오디오 공격이 갖는 두 가지 한계를 극복한다. 첫째, 기존 방법은 미리 정의된 텍스트 페이로드를 목표로 삼아 모델의 안전 정렬을 우회하려 했지만, 텍스트와 오디오 사이의 정합성을 보장하기 어려웠다. 둘째, 공격 성공 여부를 판단하는 기준이 주관적이거나 제한된 데이터셋에 의존했다. WhisperInject은 “네이티브 페이로드” 개념을 도입해, 모델 자체가 생성한 위험한 응답을 목표로 삼는다. 이는 모델의 내부 언어 분포와 완벽히 일치하므로, 이후 단계에서 최소 교란으로도 높은 재현성을 확보한다.
Stage 1의 핵심은 RL‑PGD이다. 기존 PGD는 고정된 목표 손실을 최소화하지만, 여기서는 “위험 점수”라는 보상을 LLM 심판(J)으로부터 얻어 다중 후보 응답을 평가한다. 후보들의 평균 보상을 기준으로 베이스라인을 설정하고, 각 후보의 어드밴티지를 계산해 가중 교차 엔트로피 손실에 반영한다. 이렇게 하면 탐색이 단일 방향에 국한되지 않고, 위험도가 높은 응답 쪽으로 확률 질량을 점진적으로 이동시킨다. 또한, 스톨 상황에서는 “프라임” 문구(예: “Sure, I can help”)를 목표로 하는 프라이밍 손실을 적용해 모델을 완전 거부 상태에서 탈피시킨다.
Stage 2에서는 발견된 텍스트 페이로드를 오디오에 삽입한다. 여기서는 tanh 재파라미터화와 Adam 옵티마이저를 결합한 PGD 변형을 사용한다. 교란 δ는 ‑ε₂ ≤ δ ≤ ε₂ 구간에 제한되며, ε₂는 인간 청취자에게 인지되지 않을 정도의 작은 값으로 설정된다. 손실은 오디오‑텍스트 결합 임베딩 공간에서 텍스트 토큰에만 마스크를 적용해 계산한다. 즉, 오디오 토큰에 대한 손실은 무시하고, 목표 텍스트가 생성될 확률을 최대화한다. 최적화 과정에서는 코사인 유사도와 LLM 심판의 위험 점수를 동시에 모니터링해, 두 기준을 모두 만족하면 조기 종료한다.
실험에서는 Whisper, AudioLM 기반 멀티모달 LLM 5종을 대상으로 두 개의 공개 벤치마크(예: HarmBench, AdvAudioSet)를 사용했다. 성공률은 60‑78%였으며, 인간 청취자 실험에서 95% 이상이 변형을 감지하지 못했다. 또한, 다양한 베이스 오디오(날씨 질문, 인사, 짧은 뉴스)와 다양한 악성 명령(악성 스크립트, 피싱 메일 작성 등)에 대해 일관된 공격 성능을 보였다.
보안적 시사점으로는, 오디오 인터페이스가 널리 배포된 환경(스마트 스피커, 차량 내 음성 비서 등)에서 악성 페이로드가 은밀히 전파될 위험이 있음을 강조한다. 기존의 음성 인식 방어 메커니즘은 텍스트 기반 필터링에 초점을 맞추었으나, WhisperInject은 오디오 자체에 내재된 교란을 이용하므로, 새로운 방어 전략(예: 오디오 신호의 스펙트럼 이상 탐지, 멀티모달 일관성 검증)이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기