아라비아 어린이 음성 인식 데이터셋

초록

본 논문은 레반틴 아라비아어를 사용하는 6~13세 어린이 288명을 대상으로 355개의 발화를 수집한 “Arabic Little STT” 데이터셋을 소개한다. 최신 ASR 모델인 Whisper의 8가지 변형을 평가한 결과, 가장 큰 모델(Large_v3)조차도 어린이 음성에서 0.66 WER를 기록해 성인 데이터(WER < 0.20)와 큰 격차를 보였다. 이는 아라비아어 어린이 음성에 특화된 데이터와 모델이 절실히 필요함을 시사한다. 데이터는 윤리·프라이버시 규정을 준수해 공개한다.

상세 요약

본 연구는 저자원이면서도 인구가 많은 아라비아어 분야에서, 특히 어린이 음성이라는 극히 제한된 서브도메인에 대한 데이터 부족 문제를 직접 해결하고자 한다. 데이터 수집은 레반틴 방언을 사용하는 초·중학생 288명을 대상으로 교실 환경에서 진행되었으며, 마이크는 고정형 및 휴대형을 혼용해 실제 교육 현장을 반영한다. 총 355개의 발화는 평균 길이 3~5초이며, 발화 내용은 교과 과정과 일상 대화를 혼합한 스크립트 기반과 자유 발화 두 종류로 구성돼 발화 다양성을 확보한다. 라벨링은 다중 청취자 검증 과정을 거쳐 텍스트 정규화와 방언 특수 표기 규칙을 적용했으며, 개인정보 보호를 위해 아동 동의서와 익명화 절차를 엄격히 수행했다.

평가에는 OpenAI Whisper 모델의 nano, base, small, medium, large, 그리고 최신 버전인 nano_v2, base_v2, large_v3 등 8가지 변형을 사용했다. Whisper는 사전학습된 다언어 모델이지만, 어린이 음성의 발음 변이, 억양, 잡음 등에 취약함을 보였다. 가장 큰 모델인 Large_v3조차 0.66 WER를 기록했으며, 이는 성인 아라비아어 벤치마크(대체로 0.15~0.20 WER)와 비교해 3배 이상 높은 오류율이다. 오류 분석 결과, 어린이 특유의 음성 변이(예: 모음 축소, 자음 클러스터 약화)와 교실 잡음이 주요 원인으로 나타났다. 또한, 방언 내 변이와 코드스위칭 현상이 텍스트 정규화 단계에서 추가 오류를 유발했다.

기술적 시사점으로는 (1) 대규모 다언어 사전학습 모델이라 할지라도 연령대별 음성 특성을 반영한 파인튜닝이 필요함을, (2) 방언·연령·환경 변이를 동시에 고려한 데이터 증강 기법이 효과적일 가능성을 제시한다. 윤리적 측면에서는 아동 데이터 수집·공개 시 동의 절차, 데이터 최소화, 재식별 방지 등을 상세히 기술했으며, 데이터 라이선스는 비상업적 연구 목적에 한정한다. 이는 향후 아동 음성 기술 개발 시 표준이 될 수 있다. 마지막으로, 데이터 규모가 아직 작아 통계적 일반화에 한계가 있지만, 공개를 통해 커뮤니티가 데이터 확장·다양화에 참여하도록 유도한다는 점이 큰 장점이다.

초록

상세 요약

📜 논문 원문 (영문)