사이클 일관성 기반 무지도(end‑to‑end) 음성 인식 학습
본 논문은 텍스트‑투‑인코더(TTE) 모델을 활용해 ASR 인코더 상태를 재구성하고, 이를 사이클 일관성 손실로 이용함으로써 라벨이 없는 음성 데이터를 효과적으로 활용하는 방법을 제안한다. 100시간의 라벨링된 데이터와 추가 360시간의 무라벨 음성을 결합해 학습한 결과, 기존 모델 대비 14.7% 낮은 WER을 달성하였다.
저자: Takaaki Hori, Ramon Astudillo, Tomoki Hayashi
본 논문은 라벨이 없는 대규모 음성 데이터를 활용해 end‑to‑end 자동 음성 인식(ASR) 시스템을 개선하는 새로운 학습 방법을 제안한다. 전통적인 end‑to‑end ASR는 대량의 음성‑텍스트 쌍이 필요하지만, 실제로는 라벨링 비용이 높아 제한적인 데이터만 확보할 수 있다. 최근 사이클 일관성(cycle‑consistency) 손실이 무라벨 데이터 활용에 유망한 접근법으로 떠오르고 있으나, ASR에 직접 적용하기엔 두 가지 큰 장애물이 있다. 첫째, ASR의 출력은 텍스트이며, 텍스트는 스피커·프로소디와 같은 음성 고유 정보를 포함하지 않는다. 둘째, 텍스트 → 음성(TTS) 복원 과정에서 원본 음성의 세부 특성이 손실되어, 복원된 음성과 원본 사이의 차이를 직접 최소화하기 어렵다.
이를 해결하기 위해 저자들은 “인코더‑레벨 사이클 일관성”이라는 개념을 도입한다. ASR 모델은 입력 음성 X를 인코더 h_asr 시퀀스로 변환하고, 디코더를 통해 문자 시퀀스 Ĉ 를 생성한다. 기존 TTS는 Ĉ 를 스펙트로그램 혹은 파형으로 복원하지만, 여기서는 텍스트‑투‑인코더(Text‑to‑Encoder, TTE) 모델을 사용해 Ĉ 로부터 원본 ASR 인코더 상태 h_asr 를 직접 예측한다. TTE는 Tacotron‑2 구조를 변형한 것으로, 문자 임베딩 → 1‑D CNN 인코더 → 위치‑기반 어텐션 → LSTM 디코더 → 인코더 상태 예측(ˆh_asr) 및 종료 확률(ˆs)을 출력한다. 손실 L_tte는 ˆh_asr와 실제 h_asr 사이의 평균제곱오차(MSE)와 L1 손실, 그리고 종료 확률에 대한 binary cross‑entropy를 결합한다.
사이클 일관성 손실은 L_tte를 기대값 형태로 정의한다. 즉, ASR 모델이 생성한 N개의 문자 샘플 Cⁿ (소프트맥스 분포에서 샘플링) 각각에 대해 TTE가 재구성한 인코더 상태와 원본 h_asr를 비교하고, 그 평균을 손실로 사용한다. 이 기대값의 그래디언트는 REINFORCE 알고리즘을 이용해 추정한다. 구체적으로, 각 샘플에 대한 가중치 T(Cⁿ,X)=L_tte(ˆH_asr(Cⁿ),H_asr(X))−B(X) 를 계산하고, ∇L≈(1/N)∑ₙ T(Cⁿ,X)∇log p_asr(Cⁿ|X) 형태로 파라미터를 업데이트한다. 여기서 B(X)는 현재 배치에 대한 평균 손실을 베이스라인으로 사용해 분산을 감소시킨다.
학습 절차는 두 단계로 구성된다. 첫째, 100시간의 라벨링된 청정 음성 데이터를 이용해 전통적인 교차 엔트로피 손실로 ASR와 TTE를 사전 학습한다. 둘째, 추가로 확보한 360시간의 무라벨 음성 데이터에 대해 사이클 일관성 손실을 적용한다. 이때, 각 음성에 대해 5개의 문자 시퀀스를 샘플링하고, TTE를 통해 인코더 상태를 재구성한다. 동시에, 라벨이 있는 100시간 데이터에 대해서는 교차 엔트로피 손실을 계속 적용해 모델이 급격히 붕괴되는 것을 방지한다.
실험은 LibriSpeech 코퍼스를 사용했다. 100시간 청정 데이터만으로 초기 ASR와 TTE를 학습한 뒤, 무라벨 360시간 데이터를 사이클 일관성 방식으로 재학습하였다. 평가 결과, 무라벨 데이터를 사용하지 않은 베이스라인 대비 단어 오류율(WER)이 14.7% 감소했으며, 텍스트 전용 데이터(언어 모델 학습)와 결합했을 때 추가적인 성능 향상이 관찰되었다. 특히, 스피커·프로소디 정보가 손실되지 않은 인코더‑레벨 손실 덕분에 TTE가 복원한 인코더 상태와 원본 사이의 차이가 작아, 효과적인 반지도 학습이 가능했다.
본 논문의 주요 기여는 다음과 같다. (1) 텍스트‑투‑인코더 모델을 도입해 사이클 일관성 손실을 인코더 상태에 적용함으로써 스피커 특성 손실 문제를 회피, (2) REINFORCE 기반 기대 손실 추정을 통해 완전한 엔드‑투‑엔드 미분 가능성을 확보, (3) 라벨이 없는 음성 데이터와 텍스트 전용 데이터(언어 모델)를 효과적으로 결합한 실용적인 반지도 학습 프레임워크를 제시. 이러한 접근은 저자들이 제시한 “Encoder‑state‑level cycle consistency”가 음성 인식 분야에서 라벨 부족 문제를 완화하는 강력한 도구가 될 수 있음을 입증한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기