음성 인식 시스템을 위한 에너지 마스크 기반 적대적 회피 공격

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 스피커 인증 모델에 대한 적대적 공격 기법인 마스크드 에너지 퍼터베이션(MEP)을 제안한다. 고에너지 영역을 유지하고 저에너지 영역에만 미세한 교란을 가함으로써 인간 청취자에게는 거의 인지되지 않으면서도 모델의 임베딩을 크게 변형시킨다. 실험 결과, ECAPA‑TDNN 및 ResNet34 기반 모델에서 PESQ와 SNR을 크게 손상시키지 않으면서 공격 성공률을 기존 FGSM 계열보다 20% 이상 향상시켰다.

상세 분석

본 연구는 인간 청각의 마스킹 현상을 활용한 새로운 적대적 공격 프레임워크인 MEP(Masked Energy Perturbation)를 설계하였다. 먼저 25 ms Hann 윈도우와 12.5 ms 프레임 쉬프트를 사용해 512개의 주파수 bin을 추출하고, 각 bin의 에너지 (x

음성 인식 시스템을 위한 에너지 마스크 기반 적대적 회피 공격

초록

상세 분석

댓글 및 학술 토론

의견 남기기