노이즈에 강한 토큰 기반 음성 인식 프론트엔드 강화
초록
본 논문은 잡음이 섞인 음성에서 깨끗한 의미 토큰을 복원하는 프론트엔드 모델을 제안한다. 파형‑대‑파형, 토큰‑대‑토큰, 연속 SSL 특징‑대‑토큰, 파형‑대‑토큰 네 가지 변환 방식을 각각 독립적으로 학습시킨 뒤, CHiME‑4 데이터셋에 구축한 토큰 기반 ASR 백엔드에 적용해 성능을 비교한다. 실험 결과 파형‑대‑토큰(W2T‑E) 방식이 가장 낮은 WER을 기록했으며, 연속 SSL 특징을 이용한 기존 ASR보다도 우수한 결과를 보였다.
상세 분석
이 연구는 토큰 기반 자동 음성 인식(ASR)의 잡음 내성을 향상시키기 위해 프론트엔드 강화 모델을 네 가지 입력·출력 조합으로 설계하였다. 첫 번째는 전통적인 파형‑대‑파형(W2W‑E) 방식으로, Conv‑TasNet과 TF‑GridNet 같은 SE 모델을 사용해 잡음이 섞인 파형을 정제된 파형으로 변환한다. 두 번째는 토큰‑대‑토큰(T2T‑E) 방식으로, 잡음이 포함된 중복 토큰 시퀀스를 임베딩 레이어와 E‑Branchformer 기반 매핑 네트워크에 입력해 깨끗한 토큰 시퀀스를 직접 예측한다. 세 번째는 연속 SSL 특징‑대‑토큰(V2T‑E) 방식으로, 사전 학습된 SSL 모델(WavLM)의 모든 레이어를 가중합한 특징을 입력으로 받아 MLP, TCN, E‑Branchformer 등 다양한 디코더를 통해 토큰을 복원한다. 마지막으로 파형‑대‑토큰(W2T‑E) 방식은 SSL 모델 자체를 토큰화기로 활용, 파형을 직접 입력받아 전체 네트워크를 CTC 손실로 미세조정한다.
각 모델은 ASR 백엔드와 독립적으로 학습되었으며, 이는 백엔드 교체 시 프론트엔드 재학습 필요성을 최소화한다는 장점을 가진다. 실험은 CHiME‑4의 단일 채널 시뮬레이션 및 실제 잡음 데이터에서 수행했으며, 평가 지표는 WER, SI‑SNR, 그리고 토큰 수준 편집 거리(UED)였다. 결과는 다음과 같다. 파형‑대‑토큰(W2T‑E)은 UED와 WER 모두에서 최우수 성능을 보였으며, 특히 실시간 잡음 환경에서도 연속 SSL 기반 ASR(B2)보다 낮은 WER(5.6% vs 8.1%)을 달성했다. 토큰‑대‑토큰(T2T‑E)은 기존 토큰 ASR 대비 큰 개선을 보이지 못했으며, V2T‑E는 사용된 디코더에 따라 성능 차이가 있었지만 전반적으로 W2T‑E에 미치지 못했다. 또한, 파형‑대‑파형(SE) 모델인 TF‑GridNet은 연속 ASR에 일정 수준의 향상을 주었지만, 파형‑대‑토큰 방식만큼의 효과는 없었다.
흥미로운 부가 발견은 토큰 수준 정확도(UED)와 최종 WER 사이에 완벽한 상관관계가 없다는 점이다. 즉, 토큰 복원 정확도가 높아도 ASR 성능이 반드시 향상되지 않을 수 있음을 시사한다. 이는 토큰화 과정에서 정보 손실이 발생하거나, ASR 모델이 특정 토큰 분포에 민감하게 반응한다는 가능성을 제시한다. 또한, W2T‑E는 파라미터 수가 가장 많음에도 불구하고 추론 비용은 가장 낮아 실시간 적용 가능성이 높다.
이 논문은 토큰 기반 ASR에 대한 프론트엔드 강화 연구를 최초로 체계화했으며, 특히 파형‑대‑토큰 접근법이 잡음 환경에서 효율적인 솔루션임을 입증한다. 향후 연구는 더 경량화된 W2T‑E 모델 설계, 다채널 및 실시간 스트리밍 상황에 대한 확장, 그리고 토큰 복원과 ASR 사이의 최적 연결 고리 탐색을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기