CTC 음성 모델 디코딩 전략 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CTC 기반 음성 인식 모델에 대해 네 가지 디코딩 방식을 비교한다. Greedy 검색, 단어‑기반 WFST, 문자‑기반 RNN 언어 모델을 이용한 Beam Search, 그리고 Attention 기반 Seq2Seq 모델을 동일한 AM에 적용해 Word Error Rate를 측정하고 오류 유형을 분석한다. 실험 결과는 WFST가 가장 낮은 WER을 기록하지만, 문자‑RNN Beam Search도 경쟁력 있는 성능을 보이며 개방형 어휘 처리에 장점을 가진다.

상세 분석

CTC 손실은 출력 토큰 간의 조건부 독립성을 가정한다는 점에서 전통적인 HMM‑GMM 기반 AM과 근본적으로 다르다. 이 특성 때문에 디코딩 단계에서 외부 언어 모델(LM)을 별도로 결합할 수 있는데, 논문은 이를 네 가지 구체적 방법으로 구현한다. 첫 번째인 Greedy Search는 각 프레임에서 가장 확률이 높은 토큰을 선택하고, 빈(blank) 토큰과 중복을 제거하는 squash 함수를 적용한다. 구현이 간단하지만, 언어적 제약이 전혀 없으므로 훈련 데이터에 크게 의존하며, 특히 OOV(Out‑Of‑Vocabulary) 단어가 많은 상황에서 오류가 급증한다.

두 번째인 Weighted Finite State Transducer(WFST) 방식은 단어‑단위 n‑gram LM과 발음 사전을 하나의 그래프에 통합한다. 여기서는 AM이 출력한 문자 확률을 사전 확률로 정규화한 뒤, 토큰‑WFST → Lexicon‑WFST → Grammar‑WFST 순으로 결합해 최적 경로를 찾는다. 이 접근법은 고정 어휘에 대해 매우 효율적이며, 대규모 n‑gram LM을 그대로 활용할 수 있다는 장점이 있다. 그러나 어휘가 고정돼 있기 때문에 새로운 단어나 외래어를 인식하기 어렵다.

세 번째인 문자‑RNN LM 기반 Beam Search는 문자 수준에서 언어 정보를 직접 주입한다. 문자 LM은 이론적으로 무한히 긴 컨텍스트를 모델링할 수 있어, 빈 토큰에 대해서는 확률 1을 부여하고, 비빈 토큰에 삽입 보너스(b)를 적용한다. Beam width를 조절해 후보 전송을 제한하면서도 LM 점수를 곱해 최종 점수를 산출한다. 실험에서는 WFST에 근접한 WER을 달성했으며, 특히 OOV 단어 발생률을 0.5% 수준으로 크게 낮추었다. 이는 개방형 어휘 시스템에서 중요한 장점이다.

네 번째인 Attention 기반 Seq2Seq 모델은 CTC 출력 시퀀스를 문자 수준에서 받아들인 뒤, 이를 인코더‑디코더 구조에 투입한다. 인코더는 RNN(또는 GRU)으로 문자 시퀀스를 컨텍스트 벡터로 변환하고, 디코더는 어텐션 메커니즘을 통해 각 출력 단어에 적절한 컨텍스트를 할당한다. 이 방식은 문자‑RNN Beam Search보다 복잡하지만, 단어 수준의 언어 모델을 직접 활용하므로 문법적 일관성을 높일 수 있다. 다만, 실험 결과는 WFST와 문자‑RNN에 비해 WER이 다소 높았으며, 특히 긴 발화와 콜홈(CallHome) 데이터에서 성능 저하가 눈에 띈다.

전체 실험은 Switchboard 300시간 데이터로 학습한 5층 Bidirectional LSTM AM을 사용했으며, 평가에는 HUB5 Eval2000(스위치보드와 콜홈) 세트를 활용했다. 결과표(Table 1)를 보면, WFST‑Phoneme이 19.6%/25.5%/13.6%의 WER로 가장 우수했지만, 문자‑RNN Beam Search(25.1%/31.6%/18.6%)도 상당히 경쟁력 있다. Greedy 검색은 37.2%/44.0%/30.4%로 가장 낮은 성능을 보였으며, Seq2Seq는 중간 수준(34.4%/40.6%/28.1%)을 기록했다. 오류 분석에서는 문자‑RNN Beam Search가 훈련 텍스트에 존재하지 않는 단어를 30배 이상 감소시켰으며, 이는 실제 서비스에서 OOV 문제를 크게 완화시킬 수 있음을 시사한다.

핵심 인사이트는 다음과 같다. (1) 고정 어휘가 충분히 확보된 도메인에서는 WFST가 여전히 최선의 선택이다. (2) 개방형 어휘와 실시간 서비스에서는 문자‑RNN Beam Search가 좋은 트레이드오프를 제공한다. (3) Seq2Seq는 구조적으로 매력적이지만, 현재 구현에서는 학습 데이터와 모델 용량에 크게 의존해 성능이 제한적이다. 향후 연구는 (a) CTC와 Attention을 결합한 하이브리드 디코더, (b) 대규모 사전 훈련된 트랜스포머 기반 문자 LM을 Beam Search에 통합, (c) 다중‑도메인 어휘 적응 기법을 WFST와 결합하는 방향으로 진행될 수 있다.

CTC 음성 모델 디코딩 전략 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기