해석 가능한 분리 표현을 이용한 비지도 적응으로 원거리 대화 음성 인식 개선

본 논문은 라벨이 없는 원거리 대화 음성(멀티채널, 노이즈가 섞인) 데이터를 활용해, 라벨이 있는 근접 마이크(헤드셋) 음성 데이터와 결합한 비지도 적응 프레임워크를 제시한다. 기존의 대규모 라벨링 기반 ASR 모델은 도메인 간 차이(채널, 스피커, 환경) 때문에 일반화가 어려우며, 특히 원거리 대화 상황에서는 라벨 수집 비용이 크게 증가한다. 이러한 문제를 해결하기 위해 저자들은 두 단계 접근법을 설계한다. 첫 번째 단계는 ‘해석 가능한 분리 표현(Interpretable Disentangled Representations)’을 학습하는 것이다. 이를 위해 Factorized Hierarchical Variational Autoencoder(FHVAE)를 사용한다. FHVAE는 전통적인 VAE와 달리 두 종류의 잠재 변수를 도입한다. z₁은 발화 내용, 즉 언어·음소 정보를 담고, z₂는 발화 전체에 걸쳐 일정하게 유지되는 잡음·채널·스피커 정보를 담는다. 또한 µ₂라는 전역 평균 변수를 도입해 z₂가 µ₂를 중심으로 정규분포를 따르도록 강제한다. 이러한 구조는 짧은 대화형 발화에서도 잡음 특성을 안정적으로 추정할 수 있게 한다. 학습은 IHM(근접)과 SDM(원거리) 두 종류의 음성 데이터를 모두 사용하며, 라벨은 필요하지 않다. 두 번째 단계는 학습된 FHVAE를 이용해 ‘데이터 증강(Data Augmentation)’을 수행한다. 여기서는 라벨이 있는 IHM 발화에 대해 z₂를 변형함으로써 원거리 채널 특성을 갖는 합성 음성을 만든다. 구체적인 변형 방법은 두 가지이다. ① Nuisance Factor Replacement: 목표 SDM 발화의 µ₂를 추정하고, 이를 IHM 발화의 z₂에 대입한다. 이렇게 하면 텍스트(라벨)는 그대로 유지되면서, 원거리 채널 특성을 반영한 새로운 음성이 생성된다. ② Nuisance Factor Perturbation: µ₂들의 공분산을 PCA로 분석하고, 주요 성분을 따라 무작위 스케일 γ를 곱한 벡터 p를 생성한다. p를 z₂에 더함으로써 기존 잡음 공간을 다양하게 탐색한다. 이때 ‘over‑pruning’ 문제를 피하기 위해 활성화된 차원만을 교란한다. 실험은 AMI 회의 데이터셋을 기반으로 진행되었다. IHM 데이터를 소스 도메인, SDM 데이터를 타깃 도메인으로 설정하고, 라벨이 없는 SDM 데이터를 이용해 FHVAE와 VAE를 각각 학습하였다. ASR 모델은 3‑layer LSTM 구조를 사용했으며, 합성 데이터를 추가 학습한다. 결과는 다음과 같다. 기본 IHM‑trained 모델은 SDM‑dev에서 70.8 % WER을 기록했으며, 기존 VAE‑DA(재현·교체·교란) 방법은 약 61 %~63 % 수준으로 개선되었다. 반면, FHVAE‑DA는 교체 방식에서 59.0 %, 교란(γ=1.0) 방식에서 58.6 % WER을 달성해 VAE‑DA 대비 2 %~3 % 추가 개선을 보였다. 특히 ‘rev‑p’와 ‘uni‑p’와 같은 변형은 성능 저하를 일으켰으며, 이는 잡음 변환이 µ₂의 주요 성분을 따를 때 효과가 크다는 것을 의미한다. 전체적으로, 라벨이 전혀 없는 SDM 데이터만을 활용해 IHM 기반 모델 대비 24 % 이상의 WER 감소를 달성했으며, 완전 라벨링된 SDM 모델과의 격차를 77 % 이상 메우는 결과를 얻었다. 이는 비지도 적응이 비용 효율적으로 도메인 차이를 메우고, 실제 현장(다양한 마이크·방음 환경)에서 ASR 성능을 크게 향상시킬 수 있음을 입증한다.

해석 가능한 분리 표현을 이용한 비지도 적응으로 원거리 대화 음성 인식 개선

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기