만다린 음성 인식을 위한 모델링 단위 비교 연구

본 논문은 만다린어 음성 인식에 적합한 모델링 단위를 찾기 위해, 엔드‑투‑엔드 방식의 두 대표적인 접근법인 Connectionist Temporal Classification(CTC)와 Attention 기반 인코더‑디코더(LAS) 모델을 적용하고, 세 가지 음성 단위인 컨텍스트 의존 음소(CDP), 음절(톤 포함), 그리고 한자 문자에 대해 체계적인 비교 실험을 수행하였다. 먼저 연구 배경을 설명하면서, 전통적인 ASR 시스템이 음향·음소·언어 모델을 별도로 학습하고 복합적인 WFST 디코딩 과정을 거치는 반면, 엔드‑투‑엔드 모델은 이러한 복잡성을 크게 감소시켜 직접적인 문자 또는 음절 예측이 가능함을 강조한다. 특히 만다린어는 성조가 중요한 언어적 특성으로, 음절 단위가 발음 정보를 충분히 담고 있어 모델링 선택에 큰 영향을 미친다. CTC 모델은 블랭크 토큰을 도입해 입력 프레임과 라벨 시퀀스의 길이를 맞추고, 프레임‑레벨 독립성을 가정해 전체 정렬을 marginalize한다. 이때 인코더는 BLSTM 기반이며, 디코딩 단계에서는 4‑gram 중국어 언어 모델을 추가해 로그 확률과 단어 수 보정을 수행한다. 반면 Attention 모델은 인코더‑디코더 구조에 어텐션 메커니즘을 도입해 각 출력 토큰이 전체 입력 시퀀스와의 연관성을 학습하도록 설계되었다. 디코더는 LSTM 기반이며, 길이 정규화와 커버리지 보너스를 포함한 빔 서치를 사용한다. 실험은 DidiCallcenter(자연 대화, 2,800시간)와 DidiReading(읽기, 12,000시간) 두 대규모 데이터셋에서 진행되었다. 각 데이터셋은 테스트 셋으로 2,000·5,000개의 발화를 무작위 추출했으며, 입력 특징으로 40차 멜 스펙트로그램을 10 ms 간격으로 추출하고 전역 평균·분산 정규화를 적용했다. 모델 파라미터는 CDP‑CTC가 86 M, 음절‑CTC가 30 M, 문자‑CTC가 46 M이며, Attention 모델은 음절‑Attention이 8.79 M, 문자‑Attention이 12.54 M으로 비교적 가볍다. 성능 평가는 문자 오류율(CER)로 측정했다. CTC 결과에서는 음절‑CTC가 Callcenter에서 7.31 %, Reading에서 5.62 %로 가장 낮은 CER를 기록했으며, 파라미터가 적어 학습·추론 속도도 우수했다. CDP‑CTC와 문자‑CTC는 각각 7.42 %/5.81 %와 7.45 %/5.79 %로 비슷한 수준이었지만, 파라미터 규모와 학습 효율에서 차이를 보였다. Attention 모델에서는 문자‑Attention이 5.68 %(Callcenter)와 4.89 %(Reading)로 최고 성능을 달성했으며, 음절‑Attention은 6.34 %와 5.78 %에 머물렀다. 외부 언어 모델을 결합했을 때 두 모델 모두 성능이 향상되었으며, 특히 Reading 데이터셋에서 언어 모델의 효과가 크게 나타났다. 이러한 결과를 통해 저자는 다음과 같은 결론을 도출한다. 1) CTC와 같이 프레임‑레벨 독립성을 전제로 하는 모델에서는 음절 단위가 가장 효율적이며, 파라미터가 적어 실시간 서비스에 유리하다. 2) Attention 기반 모델은 시퀀스 전체 의존성을 학습하므로 문자 단위가 풍부한 언어 정보를 직접 활용해 더 낮은 CER를 달성한다. 3) 모델 규모와 구조가 다름에도 불구하고, 경량화된 양방향 LSTM 기반 Attention 모델이 대형 단방향 LSTM CTC 모델보다 전반적으로 우수함을 확인했다. 4) 외부 언어 모델은 두 접근법 모두에서 성능 향상에 기여하지만, 도메인 특화된 용어가 많은 경우 그 효과가 더욱 두드러진다. 마지막으로 향후 연구에서는 파라미터 수를 동일하게 맞춘 양방향 CTC와 대형 Attention 모델을 비교함으로써 구조적 차이가 성능에 미치는 영향을 보다 정밀하게 분석할 계획임을 밝힌다.

만다린 음성 인식을 위한 모델링 단위 비교 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기