프리트레이닝 없는 단일채널 다중화자 음성인식

본 논문은 단일채널(모노럴) 2인 화자 혼합 음성을 입력으로, 사전 학습 없이 완전 end‑to‑end 방식으로 다중 화자 라벨을 동시에 인식하는 모델을 제안한다. CTC와 attention 기반 인코더‑디코더 구조에 화자별 독립 attention 모듈과 scheduled sampling을 도입해 학습‑추론 격차를 감소시켰으며, WSJ와 wsj0‑2mix 데이터셋에서 기존 방법 대비 약 10 % 상대 CER·WER 향상을 달성하였다.

저자: Xuankai Chang, Yanmin Qian, Kai Yu

본 논문은 “프리트레이닝 없는 단일채널 다중화자 end‑to‑end ASR 시스템”을 제안한다. 기존 다중 화자 음성 인식 연구는 주로 (1) 별도의 음성 분리 네트워크(예: Deep Clustering, PIT)를 사전 학습하고, (2) 분리된 음성을 각각 단일 화자 ASR에 투입하는 두 단계 파이프라인을 사용했다. 이러한 접근은 복잡한 파이프라인과 높은 연산 비용을 초래하며, 특히 사전 학습 데이터가 부족한 상황에서 성능 저하가 발생한다. 저자들은 이러한 한계를 극복하고자, 혼합 음성 O와 해당 화자들의 텍스트 라벨 R만을 이용해 완전 end‑to‑end 방식으로 학습되는 모델을 설계하였다. ### 1. 모델 구조 - **Encoder Mix**: 2‑layer CNN(VGG‑style)으로 입력 혼합 스펙트로그램을 중간 표현 H로 변환한다. - **Encoder SD**: 화자 수 S(본 연구에서는 2)만큼 독립적인 BLSTM‑Projection 레이어를 배치해 H를 화자‑특이적인 특징 H_s 로 매핑한다. - **Encoder Rec**: 각 H_s 를 다시 2‑layer BLSTM‑Projection을 통해 고차원 시퀀스 G_s 로 변환한다. - **CTC 모듈**: 각 G_s 에 대해 CTC 손실을 계산하고, permutation‑invariant 방식으로 최소 손실을 보이는 라벨 순서 π̂ 를 선택한다. 이는 라벨 순서에 대한 별도 정렬 없이도 다중 화자 라벨을 학습할 수 있게 한다. - **Decoder**: G_s 를 입력으로 하여 각각 독립적인 attention 모듈(‘speaker parallel attention’)을 통해 컨텍스트 벡터 c_s 를 생성하고, 1‑layer LSTM 디코더가 이를 기반으로 토큰 y_s 를 순차적으로 예측한다. - **Loss**: 전체 손실 L_mtl = λ·L_ctc + (1‑λ)·L_att (λ=0.2) 로 정의한다. ### 2. 핵심 기법 1. **Speaker Parallel Attention** 기존 연구에서는 모든 화자 스트림이 동일한 attention 파라미터를 공유했지만, 화자마다 발음, 에너지, 말하기 속도가 다르다. 따라서 화자별 독립 attention을 도입해 각 스트림에 맞는 어텐션 가중치를 학습한다. 이는 화자 트레이싱 능력을 강화하고, 인코더가 완벽히 분리하지 못한 잔여 혼합성을 디코더 단계에서 보완한다. 시각화(Fig. 2)에서 화자 1·2에 대한 어텐션 패턴이 명확히 구분되는 것을 확인할 수 있다. 2. **Scheduled Sampling** 학습 시 teacher‑forcing을 사용하면 모델이 정답 라벨에 과도하게 의존하게 되고, 추론 시 예측 토큰만 사용해야 하는 상황에서 성능 저하가 발생한다. 이를 해결하기 위해 매 타임스텝마다 이전 입력을 정답 라벨(r) 혹은 모델 예측(y) 중 확률 p=0.2 로 무작위 선택한다. 이 기법은 학습‑추론 간 분포 차이를 줄이고, 특히 라벨 순서가 뒤바뀔 위험이 높은 다중 화자 상황에서 오류 전파를 억제한다. ### 3. 실험 설정 - **데이터**: WSJ SI284(훈련), Dev93(개발), Eval92(평가)에서 2인 화자 혼합 데이터를 인공적으로 생성했으며, 추가로 wsj0‑2mix 벤치마크를 사용해 비교 실험을 수행하였다. 총 훈련 시간 98.5 h, 개발 1.3 h, 평가 0.8 h. - **특징**: 80‑dim log‑Mel + pitch + delta/delta‑delta, 평균·표준편차 정규화. - **학습**: AdaDelta(ρ=0.95, ε=1e‑8), 초기 가중치는 균등분포(−0.1, 0.1). - **디코딩**: joint CTC + attention 점수와 사전 학습된 1‑layer LSTM RNNLM(1000 셀) 를 shallow fusion(λ=0.3, LM weight=1.0) 으로 결합, beam width 30. ### 4. 결과 | 모델 | Dev CER | Eval CER | Dev WER | Eval WER | |------|---------|----------|---------|----------| | Single‑speaker (baseline) | 0.9 % | 0.9 % | 1.9 % | 1.9 % | | Multi‑speaker (baseline, shared attention) | 15.14 % | 12.20 % | 24.90 % | 20.43 % | | + Speaker Parallel Attention | 14.80 % | 11.11 % | 24.88 % | 18.76 % | | ++ Scheduled Sampling (p=0.2) | 14.78 % | 10.93 % | 24.52 % | 18.44 % | - Speaker parallel attention만 적용해도 평균 CER가 9 %·WER가 8 % 상대 개선되었다. - Scheduled sampling을 추가하면 CER가 추가로 0.2 %p, WER가 0.3 %p 정도 더 낮아져 최종적으로 기존

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기