청각장애인 음성인식 실현 가능성 분석
본 연구는 현재 상용 자동 음성인식(ASR) 시스템이 청각장애인(Deaf and Hard‑of‑Hearing, DHH)의 음성을 얼마나 정확히 인식하는지 평가한다. Microsoft Translator Speech API를 이용한 실험 결과, 청각장애인 음성은 평균 77 %의 단어 오류율(WER)을 보였으며, 청각인(hearing) 대비 약 4배 높은 오류율을 나타냈다. 이러한 결과는 기존 상용 ASR이 DHH 사용자를 위한 실용적인 인터페이스…
저자: Abraham Glasser, Kesavan Kushalnagar, Raja Kushalnagar
본 논문은 “Feasibility of Using Automatic Speech Recognition with Voices of Deaf and Hard‑of‑Hearing Individuals”라는 제목으로, 현재 상용 자동 음성인식(ASR) 시스템이 청각장애인(DHH) 음성을 얼마나 정확히 인식할 수 있는지를 실증적으로 조사한다. 연구 배경은 스마트 스피커와 스마트폰 등 음성 인터페이스가 일상에 깊숙이 침투하면서, 청각장애인에게는 새로운 접근성 장벽이 형성되고 있다는 점이다.
연구팀은 Rochester Institute of Technology와 Gallaudet University의 협업을 통해, National Technical Institute for the Deaf(NTID)에서 보유한 650명 규모의 DHH 음성 데이터베이스 중 45개의 샘플을 선정하였다. 이 샘플은 Clarke Sentence Test라는 표준 발음 평가 도구를 이용해 음성 병리학자가 0~50점의 가청성 점수를 부여했으며, 점수에 따라 ‘양호(40점 이상)’, ‘보통(30~40점)’, ‘열악(10~30점)’ 세 그룹으로 나누었다.
ASR 엔진으로는 Microsoft Translator Speech API를 사용했으며, 이는 기업용 전사적 서비스에서 널리 쓰이는 클라우드 기반 음성인식 솔루션이다. 전사된 텍스트와 원본 텍스트 간의 차이는 NIST Speech Recognition Scoring Toolkit(SCTK) 버전 2.4.0.4를 이용해 Word Error Rate(WER)로 정량화하였다. 청각인 5명의 샘플은 실험실 내 잡음이 있는 환경에서 휴대폰으로 녹음했으며, 평균 WER은 18 %로 현재 상용 수준과 일치하였다. 반면 DHH 샘플 전체의 평균 WER은 77 %에 달했으며, ‘양호’ 그룹조차 53 %의 오류율을 보였다. 그룹 간 차이는 t‑test에서 p < 0.01로 통계적으로 유의미하였다.
오류 원인에 대한 논의는 두 가지 주요 요인으로 정리된다. 첫째, 현재 ASR 모델은 대규모 청각인 음성 데이터로 학습되었으며, DHH 특유의 발음 변이(예: 비음·유음 약화, 음소 길이 변동, 억양 감소 등)를 충분히 반영하지 못한다. 둘째, DHH 인구는 전체 인구에 비해 상대적으로 작고, 배경(언어, 교육 수준, 청각 보조기기 사용 여부 등)이 다양해 충분한 학습 데이터를 확보하기 어렵다. 이러한 구조적 한계는 ‘양호’ 발음조차 청각인 평균 수준에 못 미치는 결과를 초래한다.
연구자는 Clarke Sentence Test가 임상적 발음 평가에는 유용하지만, ASR 사용성을 직접적으로 측정하기엔 한계가 있음을 지적한다. 따라서 DHH 사용자를 위한 피드백 제공 및 모델 개선을 목표로 하는 전용 자동 평가 도구 개발이 필요하다고 제안한다. 구체적으로는 (1) DHH 음성 코퍼스를 대규모로 구축하고, (2) 발음 변이와 억양 특성을 반영한 맞춤형 딥러닝 모델을 설계하며, (3) 실시간 피드백을 제공하는 사용자 인터페이스를 개발하는 것이 제시된다.
결론 부분에서는 현재 Microsoft Translator Speech API의 WER이 78 % 수준으로 실용적 사용에 부적합함을 재확인하고, 청각인 대비 오류율이 현저히 높으며 변동성도 크다는 점을 강조한다. ASR 시스템이 DHH 사용자를 포괄하려면, 대규모 DHH 음성 데이터 확보, 특화된 모델 재학습, 그리고 DHH 전용 평가 체계 도입이 필수적이다. 향후 연구 과제로는 (가) 다양한 언어·문화적 배경을 포함한 DHH 데이터베이스 구축, (나) 멀티모달(시각·제스처·텍스트) 입력을 결합한 하이브리드 인터페이스 개발, (다) 실사용 환경에서의 장기적인 사용성 평가가 제시된다.
요약하면, 본 연구는 현재 상용 ASR이 DHH 사용자를 위한 접근성을 제공하지 못한다는 실증적 증거를 제시하고, 데이터와 모델 양쪽에서의 근본적인 개선이 필요함을 강조한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기