챠카비안 방언을 위한 작은 왕자 데이터셋 공개

챠카비안 방언을 위한 작은 왕자 데이터셋 공개
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 『어린 왕자』를 챠카비안 방언으로 번역한 인쇄·오디오 책을 텍스트와 음성 수준에서 단어 단위로 정렬한 AI‑ready 데이터셋으로 공개한다. FAIR 원칙에 따라 CLARIN.SI에 저장했으며, Whisper‑large‑v3 모델을 미세조정해 워드 오류율을 50 %, 문자 오류율을 66 % 감소시킨 실험 결과를 제시한다.

상세 분석

이 연구는 먼저 크로아티아어 방언 데이터가 극히 부족한 현실을 짚고, 기존의 ParlaSpeech‑HR, HrAL, CCCL 등 표준어·성인·아동 말뭉치를 검토한다. 그 뒤, ‘Mići Princ’라는 프로젝트를 통해 16명의 번역가·성우가 각각 다른 미시 방언을 담당해 만든 텍스트와 113분 길이의 오디오(음악 포함)를 기반으로 데이터셋을 구축한다. 핵심 전처리 단계는 (1) 챕터 단위 분할, (2) 음성 활동 검출(VAD)으로 음악 구간 제거, (3) 화자 다이어리제이션, (4) 수동 검수 및 EXB 포맷 변환, (5) Kaldi 기반 단어 정렬이다. 특히 방언 특유의 문자(ˆı, ¨ı 등)를 표준 크로아티아어 문자로 매핑하고, 숫자를 단어로 전사하는 정규화 과정을 거쳐 텍스트‑음성 정합성을 확보했다.

데이터는 두 가지 형태로 인코딩된다. 첫 번째는 전체 전사와 타임스탬프를 포함한 verbatim JSON/EXB 포맷이며, 두 번째는 ASR 실험에 최적화된 30초 이하 청크와 정규화 텍스트만을 담은 MP.asr.json이다. ASR용 청크는 테스트용 챕터(13, 15)를 별도 유지해 알려진 화자와 미지의 화자에 대한 일반화 성능을 평가할 수 있게 설계했다.

ASR 실험에서는 Whisper‑large‑v3 모델을 선택했으며, 80 epoch, 학습률 1e‑5, 배치 16으로 미세조정했다. 평가 지표는 WER와 CER이며, 미세조정 전후를 비교한 결과 전체 WER가 약 50 % 감소하고 CER는 66 % 감소했다. 특히 훈련에 포함되지 않은 화자(Geograf, Dilavac)에서도 오류 감소가 관찰돼 방언 특성을 효과적으로 학습했음을 보여준다. 오류 분석에서는 (①) 잘못된 구간 분할, (②) 표준어 회귀, (③) 방언 표기 다양성 등 세 가지 주요 원인을 제시한다. 또한 모델이 인쇄본과 오디오본 사이의 불일치를 자동으로 탐지해 데이터 정제에 기여한 점도 강조한다.

제한점으로는 데이터 규모가 79분(음성)·11 591단어에 불과해 대규모 딥러닝 모델에 충분히 일반화하기엔 부족함을 인정한다. 또한 방언 표기가 표준화되지 않아 정규화 과정에서 일부 의미 손실이 발생할 가능성이 있다. 향후 작업으로는 더 많은 방언 지역을 포함한 확장, 멀티모달(텍스트‑음성‑이미지) 정렬, 그리고 공개된 데이터셋을 활용한 방언 인식·합성 모델의 베이스라인 구축을 제안한다.

전반적으로 이 논문은 방언 데이터의 희소성을 극복하고, 작은 규모의 고품질 정렬 데이터가 최신 음성 인식 모델에 실질적인 성능 향상을 가져올 수 있음을 실증적으로 입증한다. 또한 FAIR 원칙에 입각한 데이터 공유와 디지털 전시 계획을 통해 학계·산업·일반 대중 모두에게 방언 보존과 기술 활용의 가능성을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기