시간 지연 얕 신경망과 특징 전환을 사용한 스포핑 검출

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Spoof detection using time-delay shallow neural network and feature switching
  • ArXiv ID: 1904.07453
  • 발행일: 2020-07-28
  • 저자: Mari Ganesh Kumar, Suvidha Rupesh Kumar, Saranya M, B. Bharathi, Hema A. Murthy

📝 초록 (Abstract)

음성 기반 생체 인식에서 위조 발화를 감지하는 것은 기본적인 문제입니다. 위조는 논리적 접근 방식인 음성 합성, 음성 변환 또는 실제 접근 방식인 사전 녹음된 발화의 재생을 통해 수행될 수 있습니다. 본 연구에서는 최신 x-벡터 기반 화자 인증 방법에서 착안하여 논리적 및 물리적 접근에 대해 위조 감지를 위한 시간 지연 얕은 신경망(TD-SNN) 시스템을 제안합니다. 제안된 TD-SNN 시스템의 주요 특징은 테스트 중 변동 길이의 발화를 처리할 수 있다는 점입니다. ASV-spoof-2019 데이터셋에서 제안된 TD-SNN 시스템과 기준 가우시안 혼합 모델(GMM)의 성능을 분석하였으며, 성능은 최소 정규화 tandem 감지 비용 함수(min-t-DCF)를 통해 측정되었습니다. 개별 특징으로 연구했을 때 TD-SNN 시스템은 물리적 접근에 대해 GMM 시스템보다 항상 우수한 성능을 보였습니다. 논리적 접근에서는 특정 개별 특징에 대해 GMM이 TD-SNN 시스템을 능가했습니다. 결정 수준 특징 스위칭(DLFS) 패러다임과 결합했을 때, 최고의 TD-SNN 시스템은 평가 데이터에서 각각 논리적 접근과 물리적 접근에 대해 48.03%와 49.47% 상대적인 향상을 보이며 가장 우수한 기준 GMM 시스템을 능가하였습니다.

💡 논문 핵심 해설 (Deep Analysis)

This research paper introduces a novel system for detecting voice spoofing using Time-Delay Shallow Neural Networks (TD-SNN) and Decision-Level Feature Switching (DLFS). The primary issue addressed is the detection of spoofed utterances, which can occur through logical access methods like speech synthesis or conversion, and physical access methods such as replay attacks. TD-SNNs are a new architecture that allows for handling variable-length inputs, unlike traditional deep neural networks (DNNs) which typically require fixed input lengths. The system is tested on the ASV-spoof-2019 dataset using metrics like min-t-DCF to measure performance. Results show that the TD-SNN outperforms Gaussian Mixture Models (GMMs), particularly in physical access scenarios, and achieves significant improvements when combined with DLFS for both logical and physical spoofing methods. This research is crucial for enhancing the security of voice-based biometric systems by improving their ability to detect and mitigate spoofing attacks.

📄 논문 본문 발췌 (Translation)

**개요**

음성 기반 생체 인식에서 위조 발화를 감지하는 것은 필수적인 문제입니다. 위조는 논리적 접근 방식인 음성 합성, 음성 변환 또는 실제 접근 방식인 사전 녹음된 발화의 재생을 통해 수행될 수 있습니다. 본 연구에서는 최신 x-벡터 기반 화자 인증 방법에서 착안하여 논리적 및 물리적 접근에 대해 위조 감지를 위한 시간 지연 얕은 신경망(TD-SNN) 시스템을 제안합니다.

방법론

최근 ASV-spoof-2015와 ASV-spoof-2017 챌린지 관련 문헌에서 많은 연구가 특징 추출 모듈에 초점을 맞추고 있습니다. 이러한 작업의 대부분은 간단한 GMM 분류기를 뒤쪽에 사용합니다. 초기에는, 많은 신경망 시스템처럼 발화의 스펙트로그램을 x-벡터 아키텍처에 입력으로 주었지만, 이 방법의 성능이 좋지 않았습니다. 따라서 본 연구에서는 다양한 특징을 선택하여 GMM과 x-벡터 분류기로 구성된 위조 감지 시스템을 구축했습니다.

실험

본 논문에서 사용한 특징은 다음과 같습니다: Constant-Q 촉각 계수(CQCC), Linear Frequency Cepstral Coefficients (LFCC), Mel Frequency Cepstral Coefficients (MFCC), Inverse Mel Frequency Cepstral Coefficients (IMFCC) 등. 또한 스펙트로그램 특징이 위조 발화의 미세한 스펙트럼 차이를 감지하는 데 부족함을 보여주었기 때문에 필터뱅크 에너지를 특징으로 사용했습니다. 세 가지 필터뱅크 에너지는 Linear Frequency Filterbank Energy (LFBE), Mel Frequency Filterbank Energy (MFBE) 및 Inverse Mel Frequency Filterbank Energy (IMFBE)입니다.

[[IMG_PROTECT_1]]

표 1: 다양한 위조 공격 조건 하에서의 성능

시스템 지표 전체 AA AB AC BA BB BC CA CB CC
CQCC EER 11.04% 25.28% 6.16% 2.13% 21.87% 5.26% 21.10% 1.79%
t-DCF 0.25 0.50 0.18 0.05 0.47 0.15 0.50 0.14

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키