음성 감정 인식의 적대적 공격과 GAN 기반 방어

본 논문은 딥러닝 기반 음성 감정 인식(SER) 시스템이 적대적 예제에 취약함을 확인하고, 이를 이용한 블랙박스 공격과 방어 전략을 체계적으로 제시한다. 서론에서는 최근 딥러닝이 SER 성능을 크게 향상시켰지만, 작은 교란으로도 모델을 오작동하게 하는 적대적 공격이 보안 위협이 되고 있음을 강조한다. 기존의 FGSM, JSMA, DeepFool, Carlini‑Wagner와 같은 화이트박스 공격은 모델 파라미터와 그래디언트 정보를 필요로 하는데, SER은 전처리 단계에서 MFCC, eGeMAPS 등 복잡한 음향 특징을 추출하므로 직접적인 그래디언트 계산이 어렵다. 따라서 저자는 백색상자 가정 없이 실제 환경 잡음(카페, 회의실, 역)을 이용해 음성에 미세한 노이즈 δ를 추가하는 블랙박스 공격을 설계한다. 노이즈는 Demand Noise 데이터베이스에서 추출하고, 원본 음성의 평균·분산에 맞춰 스케일링한다. ε(δ) 파라미터를 0.1~2.0 범위에서 조절해 교란 강도를 제어한다. 인간 청취 실험에서는 5명의 청취자가 200개의 교란 음성을 듣고 원본과 구분하지 못했으며, 구분률이 96%·91%에 달했다. 즉, 인간에게는 거의 인지되지 않지만 SER 모델에는 큰 혼란을 야기한다. 실제 공격 결과는 IEMOCAP와 FAU‑AIBO 두 데이터셋에서 각각 72%·79%의 성공률을 보였으며, ε=2.0일 때 오류율이 56.87%·66.87%까지 상승했다. 방어 측면에서는 세 가지 방법을 비교한다. 첫 번째는 적대적 훈련으로, 원본 데이터와 교란 데이터를 10%~100% 비율로 혼합해 학습한다. 비율이 높을수록 오류율이 크게 감소하는 것을 확인했다(예: 100% 적대적 샘플 사용 시 오류율이 30% 이하). 두 번째는 무작위 잡음 레이어를 추가하는 방법이다. 기존 연구에서 이미지 분야에선 효과적이었지만, SER에서는 오류 감소가 미미해(약 2~5% 감소) 실제 방어로는 부적합함을 보여준다. 세 번째가 GAN 기반 방어이다. 생성기(G)는 LSTM 인코더‑디코더 구조로 잡음이 섞인 음성 특징을 깨끗한 특징으로 복원하고, 판별기(D)도 동일 구조로 진짜와 복원된 특징을 구분한다. GAN은 RMSProp(1e‑4)로 학습하고, 각 G 단계마다 D를 두 번 업데이트한다. 학습 후, 잡음이 제거된 특징을 기존 LSTM‑RNN 분류기에 투입했을 때 오류율이 크게 감소한다. 예를 들어, 카페 잡음에 대해 원본 오류 68.82%가 38.31%로, 회의 잡음은 62.58%→36.02%, 역 잡음은 66.87%→35.14%로 개선되었다. 전체 실험 설계는 다음과 같다. 두 데이터셋 모두 이진 감정 분류(긍정 vs 부정)로 라벨링했으며, eGeMAPS 특징을 사용했다. 분류 모델은 두 층 LSTM + Dense + Softmax 구조이며, 학습률 0.002에서 5 epoch마다 절반씩 감소시켜 최종 0.00001 이하까지 진행했다. 정상 음성에 대한 무가중 정확도는 FAU‑AIBO 68.35%, IEMOCAP 56.41%였으며, 교란 강도 ε=2.0에서 오류율이 각각 56.87%·66.87%까지 상승했다. 결론적으로, SER 시스템은 실제 환경 잡음 수준의 미세 교란에도 크게 취약함을 입증했으며, GAN 기반 사전 정화가 가장 효과적인 방어임을 확인했다. 또한, 적대적 훈련이 무작위 잡음보다 훨씬 강력한 방어임을 실험적으로 증명했다. 저자는 이러한 공격·방어 프레임워크가 다른 음성 기반 인공지능 서비스에도 적용 가능하다고 제안하며, 향후 다양한 잡음 유형과 실시간 방어 메커니즘 연구가 필요함을 강조한다.

음성 감정 인식의 적대적 공격과 GAN 기반 방어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기