MORE 음성 인식의 다목적 적대적 공격

읽는 시간: 8 분
...

📝 원문 정보

- Title: MORE Multi-Objective Adversarial Attacks on Speech Recognition
- ArXiv ID: 2601.01852
- 발행일: 2026-01-05
- 저자: Xiaoxue Gao, Zexin Li, Yiming Chen, Nancy F. Chen

📝 초록

오토메이티드 스피치 인식(ASR) 모델은 가상 어시스턴트, 실시간 자막 생성, 임상 기록 작성 등 다양한 분야에서 중요한 역할을 하고 있습니다. 그러나 이러한 시스템들은 적대적 공격에 취약하며, 이로 인해 인식 정확도나 추론 효율성이 크게 저하될 수 있습니다. 본 논문에서는 대표적인 ASR 모델인 Whisper 가족의 안정성을 평가하기 위해 새로운 공격 방법 **MORE**를 제안합니다. **MORE**는 정확성과 효율성을 동시에 해치는 다목적 공격 방법으로, 이전 연구들이 주로 정확도에만 초점을 맞춘 것과 달리, 더 종합적인 모델 취약점 평가를 가능하게 합니다.

💡 논문 해설

1. **첫 번째 기여**: 본 논문은 다목적 공격 방법 **MORE**을 제안합니다. 이는 정확도와 효율성 두 가지 차원에서 대규모 ASR 모델의 취약점을 동시에 타겟팅하는 첫 번째 접근법입니다. - *비유*: **MORE**를 사용하면, 마치 스포츠 경기에서 공격수와 수비수 모두를 동시에 방어할 수 있는 선수가 생기는 것과 같습니다.
  1. 두 번째 기여: REDO(반복 장려 이중화 목표)라는 새로운 개념을 도입하여 효율성과 정확성을 연결합니다.

    • 비유: REDO는 마치 자전거를 타면서 핸들을 계속 돌리는 것처럼, 모델이 잘못된 내용을 반복적으로 출력하도록 유도합니다.
  2. 세 번째 기여: 다양한 공격 방법에 대한 포괄적인 비교 연구를 제공하여 정확성과 효율성을 균형있게 평가할 수 있는 통찰력을 제공합니다.

    • 비유: 여러 가지 해킹 테크닉을 시험해보는 것처럼, MORE은 다양한 공격 방법을 검증하고 그 결과를 분석하여 ASR 모델의 취약점을 더욱 명확히 파악할 수 있게 합니다.

📄 논문 발췌 (ArXiv Source)

# 소개

오토메이티드 스피치 인식(ASR) 모델은 가상 어시스턴트, 실시간 자막 생성, 임상 기록 작성, 음성 네비게이션 등 다양한 분야에서 중요한 역할을 하고 있습니다. 이러한 성공에도 불구하고, 이러한 시스템의 실제 배포에 대한 신뢰성이 여전히 취약합니다: 작은 적대적 변형도 인식 정확도를 크게 저하시키거나 추론 효율성을 방해할 수 있습니다 — 예를 들어 사용자의 명령을 잘못 해석하거나 서비스 거부(Denial of Service) 행위를 유발하는 것입니다. 이러한 취약점들은 ASR의 정확성과 효율성에 대한 체계적인 검토가 필요함을 강조합니다. 실제 시간 민감한 환경에서 신뢰할 수 있는 성능을 보장하기 위해서는 이것이 필수적입니다.

대부분의 이전 연구는 적대 공격 상황에서 정확도 안정성에 집중해 왔습니다. 이러한 노력은 ASR 모델의 정확도 취약점을 이해하는 데 도움이 되지만, 추론 효율성의 안정성과 적대 조건 하에서 실시간 추론을 유지할 수 있는 능력은 거의 연구되지 않았습니다. 이러한 효율성이 중요하며, 공격자는 이를 악용하여 시스템 반응성을 저하시키거나 과도하게 긴 전사 결과를 생성하여 사용성에 심각한 영향을 미칠 수 있습니다. 따라서 ASR 모델의 추론 효율성 안정성을 향상시키고 평가하는 것은 실제 시간, 사용자 지향 시스템에서 실용성을 보장하기 위해 중요합니다.

효율성 안정성이 딥러닝 모델의 실제 적용에 핵심적인 역할을 하기 때문에 체계적으로 평가해야 할 필요성이 점점 더 증가하고 있습니다. 최근 연구에서는 컴퓨터 비전, 기계 번역, 자연어 처리 및 음성 생성 모델 등 다양한 분야에서 효율성 안정성을 평가하기 위한 적대 공격 방법을 제안해 왔습니다. 그러나 ASR 모델에 대한 적대 조건 하의 효율성 안정성 연구는 여전히 매우 부족하며, SlothSpeech만이 알려진 노력입니다. SlothSpeech는 정확도에 대한 영향을 고려하지 않으며 체계적으로 적대적 출력 패턴을 탐색하지 않습니다. 이러한 상황은 ASR의 효율성 차원에서의 안정성이 충분히 검토되지 않았음을 의미하며, 더 많은 연구가 필요함을 시사합니다.

그러나 아직도 ASR 모델의 정확도와 효율성의 안정성은 인간의 음성 인식 능력에 크게 뒤쳐져 있습니다. 이러한 명백한 차이는 이러한 모델의 취약점에 대한 더 포괄적인 조사를 필요로 합니다. 본 논문에서는 대표적인 대규모 ASR 모델인 Whisper 가족의 정확도와 효율성 측면에서의 안정성을 종합적으로 연구합니다.

이를 위해, 우리는 정확도 및 효율성 취약점을 동시에 타겟팅하는 새로운 Multi-Objective Repetitive Doubling Encouragement 공격 방법(MORE)을 제안합니다. 이전의 공격들이 단일 목표를 최적화하는데 초점을 맞춘 것과 달리, MORE는 정확도 기반 및 효율성 기반 적대 공격을 단일 네트워크 내에서 통합하는 다목적 회피-고정 최적화 전략을 사용합니다. 변형기 기반 모델에서 관찰된 자연적인 인간 음성 반복과 반복적인 디코딩 루프를 동기화하여, 정확도 저하를 유지하면서 긴 전사를 생성하도록 장려하는 반복적 이중화 목표(REDO)를 도입합니다. 비대칭 교차 메커니즘이 주기를 유지하며 EOS 억제 목표는 조기에 종료를 방지합니다.

본 논문의 기여는 다음과 같습니다: (a) 본 논문은 대규모 ASR 모델에 대한 정확도와 효율성 안정성을 동시에 타겟팅하는 첫 번째 통합 공격 방법을 제시하며, 이는 다목적 회피-고정 최적화 전략을 사용합니다; (b) 우리는 REDO를 제안하여 정확도 기울기를 효율성과 연결하고 잘못된 내용이지만 긴 전사를 유발하도록 가이드합니다; 그리고 (c) 다양한 공격 방법에 대한 포괄적인 비교 연구를 제공하며, 정확성과 효율성 저하 균형을 이루는 통찰력을 제공합니다. 광범위한 실험은 제안된 MORE가 더 긴 전사를 생성하면서도 강력한 정확도 공격 성능을 유지하는 면에서 모든 기준선보다 항상 우수하다는 것을 보여줍니다.

관련 연구

음성 인식에 대한 적대적 공격

오토메이티드 스피치 인식은 그 취약성이 광범위하게 연구되어 왔습니다. 이러한 공격은 주로 음성 입력에 미세한 변형을 도입하여 텍스트 전사 정확도를 저하시키는 것을 목표로 합니다. 대표적인 예로 MFCC 특징 영역의 공격, 특정 명령어를 유발하도록 설계된 타겟팅 공격 및 초음파 주파수대에 제한된 변형(DolphinAttack 등)이 있습니다. 대부분의 이전 연구는 CNN이나 Kaldi 기반 시스템과 같은 전통적인 아키텍처에 집중했으며, 현대의 대규모 변환기 기반 ASR 모델을 탐색하는 데에는 제한적이었습니다.

최근 ASR은 OpenAI Whisper와 같은 대규모 모델의 출현으로 주도되었습니다. Whisper는 대규모 데이터셋(680K 시간의 데이터)에 의해 훈련된 변환기 기반 인코더-디코더 아키텍처로, 다양한 음성 시나리오에서 더 높은 안정성과 일반화를 보여줍니다. 따라서 최근에는 특히 정확도 중심 공격을 중점으로 하는 Whisper의 적대적 안정성을 평가하는 연구에 대한 관심이 증가하고 있습니다. 이러한 노력에는 универс적인 공격, 타겟팅 Carlini & Wagner(CW) 공격, 프로젝티드 그래디언트 하강(PGD), 모멘텀 반복 빠른 그래디언트 부호 방법(MI-FGSM), 분산 조정된 모멘텀 반복 빠른 그래디언트 부호 방법(VMI-FGSM) 및 음성 인식에 대한 적대적 공격 등이 포함됩니다. 그러나 대부분의 기존 접근법은 효율성 안정성을 고려하지 않으며, 디코딩 조작을 통해 악용될 수 있는 취약점을 무시합니다. SlothSpeech는 ASR에서 유일한 효율성 중심 공격으로, 정확도 저하나 구조적인 반복을 동시에 고려하지 않으므로 다차원 안정성을 평가하는 데 제한적입니다.

동기와 응용

이전의 공격과 달리 우리의 제안된 MORE는 단일 적대 네트워크 내에서 정확도와 효율성 두 가지를 체계적으로 평가하고 약화시킵니다. 이는 기존의 단일 목표 방법이 제공할 수 없는 대규모 ASR 모델의 취약점을 종합적으로 이해하는 데 도움을 줍니다. 특히 Whisper에 대한 적대적 안정성 연구의 중요성은 그들이 혐오 발언 통제 및 개인 음성 데이터 보호에 배포될 가능성이 있음으로 인해 더욱 증가합니다. 실용적으로, 우리의 제안된 MORE는 유해하거나 개인 정보와 관련된 음성을 왜곡하여 ASR 시스템이 이러한 내용을 읽기 쉬운 텍스트로 변환하는 것을 방지할 수 있습니다. 잘못되고 과도하게 긴 전사를 유발함으로써, MORE는 정확성만을 타겟팅한 공격에서 드러나지 않는 디코딩 약점을 폭로합니다.

MORE

문제 정의

희생 모델

우리는 음성 입력이 시퀀스로 표현된다고 가정합니다. $`X = [x_1, x_2, \dots, x_T]`$. 그에 대응하는 정확한 전사는 텍스트 토큰의 시퀀스 $`Y = [y_1, y_2, \dots, y_L]`$입니다. 목표 ASR 모델은 함수 $`f(\cdot)`$로 표시되며, 음성 시퀀스를 예측된 전사로 매핑합니다: 즉, $`f(X) = \hat{Y}`$. 모델의 어휘는 $`V`$, 그리고 $`\text{EOS}\in V`$는 문장 종료 토큰입니다. 우리의 목표는 해킹을 유발하는 적대적 변형 $`\delta`$를 구성하는 것입니다: $`X + \delta`$.

공격 목적

기존의 대부분의 ASR에 대한 적대적 공격은 전사 오류만 최대화하려고 합니다. 그러나 실제적으로 방해가 되는 공격은 추론 효율성을 저하시켜야 하며, 특히 과도한 디코딩 시간으로 사용자 상호 작용을 방해할 수 있는 실시간 ASR 시스템에서 더욱 중요합니다. 따라서 우리는 전사 정확성과 계산 효율성을 동시에 타겟팅하는 이중 목적 최적화를 제안합니다:

MATH
\begin{equation}
\small
\begin{aligned}
S &= \arg\max_{\delta\in\Delta_\infty(\epsilon)}\;(\mathrm{WER}\bigl(f(X+\delta), Y\bigr), \bigl|f(X+\delta)\bigr|)
\end{aligned}
\label{eq:hier}
\end{equation}
클릭하여 더 보기

여기서 $`\mathrm{WER}(\cdot)`$는 단어 오차율을 나타내며, $`|f(\cdot)|`$는 예측된 시퀀스의 길이를 나타냅니다. 이 표현은 (i) 정확한 전사에 대한 오류를 증가시키고 (ii) 과도하게 긴 출력을 유발하여 계산 부담을 증가시키는 변형을 명시적으로 찾습니다.

변형 제약

인식 불능성을 위해 에너지 및 피크 기반의 제약 조건을 적용합니다. 표준 측정은 신호 대 잡음비(SNR)로, 신호와 변형의 에너지를 비교합니다:

MATH
\begin{equation}
    \text{SNR}_{\mathrm{dB}} = 20 \log_{10} \left( \frac{\|X\|_2}{\|\delta\|_2} \right).
\end{equation}
클릭하여 더 보기

SNR은 전체 변형 에너지를 제약하지만, 여전히 짧고 고장력의 왜곡을 허용할 수 있습니다. 이를 피하기 위해 $`\ell_\infty`$ 노름을 사용하여 변형의 피크 앰플리튜드를 제한합니다:

MATH
\begin{equation}
\small
    \Delta = \left\{\delta \mid \|\delta\|_\infty \le \epsilon\right\}, 
    \quad \text{where} \quad 
    \epsilon = \frac{\|X\|_{\infty}}{\text{SNR}}.
\end{equation}
클릭하여 더 보기

이 $`\ell_\infty`$ 제약 조건은 단일 샘플의 과도한 편차를 방지하며, 이는 심리음향 마스킹 원칙과 일치합니다. 적대적 예제는 따라서 $`X_{\text{adv}} = X + \delta`$, $`\delta \in \Delta`$로 정의됩니다.

style="width:99.0%" />
우리가 제안하는 multi-objective repetitive encouragement doubling (MORE) 적대적 공격 방법 개요.

설계 개관 및 동기

제안된 MORE 공격은 ASR 모델의 자동 회귀성과 두 가지 목표의 다른 최적화 역학을 동기로 합니다: 전사 정확도를 낮추는 것과 효율성을 저하시키기 위해 디코딩을 연장하는 것입니다. 자동 회귀 모델에서 각 예측 토큰은 모든 미래 예측에 영향을 미치며, 문장 종료(EOS) 토큰이 특히 민감합니다; 그 로짓에 작은 변형도 디코딩 중단 시점을 크게 바꿀 수 있지만, 일반 토큰과 비교해 보았을 때 EOS 토큰은 매우 제한된 그래디언트 신호를 받습니다. 정확도 공격 목표는 많은 토큰 위치에 분산되어 있으며 잘못된 전사를 장려하여 상대적으로 큰 적대적 집합이 가능합니다. 효율성 공격 목표는, 반면에 단일 EOS 토큰과 관련된 중단되지 않는 행동을 주로 타겟팅하며, 그래디언트가 좁게 집중되어 있으며 일반적인 정확도 목표의 범위와 비교해 보았을 때 크기가 작습니다. 정확도 그래디언트는 넓고 효율성 그래디언트는 뾰족하고 집중되기 때문에 단계적 최적화에서는 하나의 목적만이 지배하게 됩니다. 이는 직접적인 다목적 최적화가 불안정하다는 것을 의미합니다.

이를 해결하기 위해, 우리의 제안된 MORE는 정확도 저하를 위한 회피 단계와 효율성 저하를 위한 고정 단계로 구성된 계층적 2단계 전략을 사용합니다. 회피 단계에서는 모델이 올바른 전사로부터 멀리 떨어지게 강제합니다. 이어서 고정 단계에서 남은 자유도를 활용하여 디코딩을 연장합니다.

정식화하면, 우리는 계층적 표현식(공식 [eq:2-eq])을 두 단계의 회피-고정 방법으로 근사화합니다. 회피 단계에서는 WER의 미분 가능한 프록시를 최대화합니다. 고정 단계에서는 유지된 높은 오류율을 보존하면서 디코딩 시퀀스 길이를 확장합니다. 각 단계에 대한 최적화 절차는 다음 섹션에서 자세히 설명됩니다.

MATH
\begin{equation}
\small
\begin{aligned}
S &= \arg\max_{\delta\in\Delta_\infty(\epsilon)}\;\mathrm{WER}\bigl(f(X+\delta), Y\bigr),\quad\delta^{*} = \arg\max_{\delta\in S}\;\bigl|f(X+\delta)\bigr|,
\end{aligned}
\label{eq:2-eq}
\end{equation}
클릭하여 더 보기

이 계층적 설계는 정확도 및 효율성 그래디언트가 동시에 경쟁하지 않게 하여 안정적인 최적화 경로를 제공합니다.

회피 단계: 정확도 공격

우리의 MORE 공격의 첫 번째 기둥은 회피 단계입니다. 이 단계는 전사 정확도를 저하시키는 데 초점을 맞춥니다. 회피 단계에서는 교차 엔트로피(CE)를 WER의 미분 가능한 프록시로 사용하여 표준 그래디언트 기반 정확도 저하 공격을 적용합니다. 음수 CE를 최소화하면 실제 토큰의 확률이 감소하고 모델은 잘못된 출력으로 이동하며 WER가 증가합니다.

정확도 공격 손실은 다음과 같이 정식화됩니다:

MATH
\begin{equation}
\small
\mathcal{L}_{\text{acc}} = -\text{CE}\bigl(f(X+\delta), Y\bigr).
\label{eq:loss_acc_fixed}
\end{equation}
클릭하여 더 보기

이 손실 함수에 대한 그래디언트 변화 단계는 ASR 모델로 하여금 잘못된 토큰을 출력하도록 장려하며, 이는 최종 WER 증가와 직접적으로 연관됩니다. 이것은 공격의 초기 “불안정화” 회피 단계로서 디코딩 트래JECT리의 불안정성을 유발하고 효율성 공격에 대한 모델을 준비합니다.

고정 단계: 효율성 공격

정확도 저하와 보완적으로, MORE의 효율성 공격은 이제 취약한 모델을 타겟팅하여 과도하게 길고 계산 비용이 높은 전사를 생성하도록 고정합니다. 이 고정 단계는 아래에 제시된 두 구성 요소를 통해 수행됩니다.

EOS 억제.

디코딩은 일반적으로 EOS가 예측되면 종료됩니다. 이 토큰의 확률을 벌칙하면 모델이 무한히 디코딩 과정을 연장하도록 속일 수 있으며, 종종 의미 없는 토큰을 생성합니다. 단순히 EOS 토큰만 벌칙하는 것은 부족하며, 그 확률은 일반적으로 마지막 디코딩 단계에서 주도적입니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키