자동음성인식 60년 변천사와 최신 동향

초록

본 리뷰는 자동음성인식(ASR)의 60년 역사를 조망하고, 음성 클래스 정의, 표현 방식, 특징 추출, 분류기, 데이터베이스 및 성능 평가 등 시스템 설계의 핵심 요소들을 정리한다. 연대별 주요 연구 흐름을 제시하며, 현재도 해결되지 않은 환경·화자·문맥 변동 문제와 향후 연구 과제를 제시한다.

상세 요약

본 논문은 자동음성인식(ASR) 분야의 전반적인 흐름을 연대별로 정리함으로써, 연구자들이 현재 위치를 정확히 파악하고 향후 연구 방향을 설정하는 데 유용한 로드맵을 제공한다. 먼저 음성 클래스를 ‘연속음성’, ‘구문음성’, ‘대화음성’, ‘방언·억양 변이’ 등으로 구분하고, 각 클래스가 요구하는 전처리와 모델링 전략의 차이를 강조한다. 음성 표현 측면에서는 초기의 스펙트로그램 기반 방법에서 시작해, MFCC, PLP, RASTA‑필터링 등 인간 청각 모델을 모방한 특징 추출 기법이 주류를 이루었으며, 최근에는 딥러닝 기반의 로그멜 스펙트럼, 필터뱅크 에너지, 컨텍스트 윈도우 확장이 도입되어 시간‑주파수 정보를 보다 풍부하게 포착한다. 분류기 부분에서는 HMM이 1970‑1990년대의 표준 모델로 자리 잡은 뒤, GMM‑HMM, SGMM, 그리고 DNN‑HMM, CNN‑RNN, Transformer와 같은 신경망 기반 모델로 급격히 전환된 과정을 상세히 서술한다. 특히, 음향 모델과 언어 모델의 결합 방식, end‑to‑end 구조(CTC, Attention, RNN‑Transducer) 도입 시점과 그 효과를 비교 분석한다. 데이터베이스 측면에서는 TIMIT, WSJ, Switchboard, LibriSpeech 등 공개 코퍼스의 규모와 라벨링 품질이 성능 향상의 핵심 동인임을 강조하고, 다국어·다방언 코퍼스와 저자원 언어에 대한 데이터 증강 기법(속도 변형, 잡음 혼합, SpecAugment 등)의 필요성을 제시한다. 마지막으로 성능 평가에서는 Word Error Rate(WER) 외에 실시간 인식 지연, 메모리 사용량, 환경 적응 능력 등을 종합적으로 고려해야 함을 역설한다. 전체적으로, 논문은 기존 연구가 해결하지 못한 ‘컨텍스트·화자·환경 변동성’ 문제를 강조하고, 멀티태스크 학습, 도메인 적응, 비지도 사전학습, 그리고 인간 청각 메커니즘을 모방한 신경망 구조가 향후 해결책이 될 가능성을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)