멀리서도 정확한 화자 인식, DKU 시스템의 비밀

본 논문은 2019년 VOiCES “From a Distance” 챌린지에서 제시된 원거리·다중 잡음 화자 인식 문제에 대응하기 위해, DKU 팀이 설계·구현한 전체 시스템 파이프라인을 상세히 기술한다. 서론에서는 기존 i‑vector·DNN 기반 화자 인식이 전화·실내 환경에서는 높은 성능을 보였지만, 장거리 전파 손실·잔향·배경 소음 등으로 인해 원거리 음성에서는 여전히 어려움이 있음을 지적한다. 이러한 문제를 해결하기 위해 시스템을 데이터 전처리, 단기 스펙트럼 특징 추출, 화자 임베딩 모델링, 백엔드 스코어링, 스코어 정규화, 최종 융합·보정의 6단계로 구성하였다. 1) 데이터 전처리 - 데이터 증강: Kaldi VOiCES 레시피의 additive noise·reverberation 방식과, 이미지 소스 모델(ISM) 기반 RIR 생성(pyrоomacoustics)을 병행 적용. MUSAN의 TV·babble 잡음과 실제 방음 특성을 모사한 RIR을 결합해 훈련 데이터의 다양성을 크게 확대하였다. - 역잔향: Weighted Prediction Error(WPE) 알고리즘을 단일 채널에 적용, 10계수 FIR 필터로 late‑reverberation을 억제한다. 2) 단기 스펙트럼 특징 - MFCC‑20 (i‑vector용) 및 MFCC‑30 (x‑vector용) - 20‑dim PNCC (전력‑법·비대칭 필터링 적용) - 64‑dim Mfbank‑8k/16k (샘플링 레이트 8 kHz·16 kHz) - 64‑dim Gfbank (가마톤 필터) 모든 특징에 대해 3 s 슬라이딩 윈도우 기반 cepstral mean subtraction(CMS)을 수행하였다. 3) 화자 임베딩 모델링 - i‑vector: 2048‑component GMM‑UBM, 600‑dim 총변량 분석으로 임베딩 생성. - TDNN x‑vector: Kaldi VoxCeleb 레시피 기반, 5‑layer TDNN + 통계 풀링, 512‑dim 임베딩 추출. - Deep ResNet: residual block 채널 수를 {32,64,128,256}으로 확대, 앞부분에서 선택된 특징(Mfbank‑8k, Mfbank‑16k, Gfbank)과 두 손실 함수(Softmax, A‑softmax)를 조합해 256‑dim 임베딩을 학습. A‑softmax는 각도 마진을 도입해 클래스 간 구분성을 강화한다. 4) 백엔드 스코어링 - 코사인 유사도: ResNet 임베딩에 직접 적용, 구현이 간단하면서도 높은 성능을 보임. - Gaussian PLDA: i‑vector·x‑vector에 적용, CORAL을 이용해 소스·타깃 도메인 2차 통계량을 정렬 후 whitening·unit‑norm을 수행하고, 전체 공분산 잔차를 포함한 PLDA 모델을 학습한다. 5) 스코어 정규화 - Adaptive Symmetric Normalization(AS‑Norm)을 사용, 각 enrollment에 대해 가장 높은 코사인 점수를 보이는 X개의 코호트를 선택해 평균·표준편차 기반 정규화를 수행한다. 6) 융합·보정 - BOSARIS 툴킷으로 각 서브시스템에 스케일·바이어스를 학습, 동일 가중치의 선형 합산으로 최종 점수를 산출한다. 실험에서는 VoxCeleb1/2를 훈련 데이터로 사용하고, 개발 셋을 2개의 서브셋(각 98명)으로 나누어 도메인 적응·스코어 정규화에 활용하였다. 전체 14개의 서브시스템(원본·역잔향·각 특징·각 모델·각 백엔드)을 조합해 다양한 실험을 수행하였다. 주요 결과는 다음과 같다. - PNCC‑i‑vector는 강한 잔향·저 SNR 상황에서 MFCC‑i‑vector 대비 약 10 % 이상의 minDCF 개선을 보였다. - WPE 적용은 모든 시스템에서 약 10 %의 성능 향상을 제공한다. - ResNet‑16k Mfbank + Softmax는 8 k 대비 17.5 %의 minDCF 개선을 기록했다. - A‑softmax 손실을 적용한 ResNet은 Softmax 대비 minDCF와 EER에서 20 % 이상의 상대적 개선을 달성했다. - 최종 제출 시스템(ResNet + A‑softmax + WPE + 코사인 + AS‑Norm + BOSARIS)에서는 개발 셋에서 minDCF 0.2485, EER 2.41 %를, 평가 셋에서 minDCF 0.3532, EER 4.96 %를 기록하였다. 결론적으로, 데이터 증강·역잔향·고해상도 스펙트럼 특징·각도 기반 손실·단순 코사인 스코어링·효율적 정규화·가중 평균 융합이라는 일련의 설계가 원거리·다중 잡음 화자 인식에서 강력한 시너지 효과를 발휘함을 입증하였다. 향후 연구는 멀티채널 입력, 보다 정교한 도메인 적응, 실시간 적용을 위한 경량화 모델 등에 초점을 맞출 예정이다.

멀리서도 정확한 화자 인식, DKU 시스템의 비밀

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기