구전 언어를 디지털로 방글라데시 소수 언어 대규모 코퍼스 구축
초록
본 논문은 방글라데시의 42개 소수 언어·방언을 대상으로 85,792개의 텍스트 항목과 107시간 분량의 전사 음성을 포함한 다중모달 병렬 코퍼스인 “Multilingual Cloud Corpus”를 소개한다. 체계적인 현장 조사와 IPA 전사, 다국어 번역을 통해 ‘제로 리소스’ 언어를 웹 기반 플랫폼에 공개함으로써 언어 보전·저자원 NLP 연구에 기반 자료를 제공한다.
상세 분석
이 연구는 방글라데시 내 40여 종의 소수 언어가 겪는 디지털 소외 현상을 해소하고자, 전통적인 구전 문화와 현대 정보기술을 연결하는 혁신적 모델을 제시한다. 먼저, 9개 지방을 90일에 걸쳐 77명의 화자와 43명의 검증자를 동원해 2224개의 촉진 항목을 체계적으로 수집한 점이 주목할 만하다. 촉진 항목은 어휘(475개), 문법구문(887개), 대화문(862개)으로 구분돼 언어학적 깊이와 폭을 동시에 확보한다. 특히, 모든 항목을 ‘벵골어 자극문‑영어 번역‑IPA 전사’ 삼중 구조로 정리함으로써 병렬 코퍼스로서의 활용성을 극대화했으며, 이는 다언어 기계번역(MT) 및 음성인식(ASR) 모델 학습에 바로 적용 가능하도록 설계되었다. 전사 작업은 10명의 언어학자가 수행하고, 6명의 리뷰어가 독립 검증하는 2단계 품질 관리 프로세스를 도입해 전사 정확도를 높였다. 데이터는 공개 플랫폼(multiling.cloud)에서 검색·다운로드가 가능하도록 메타데이터와 함께 제공돼 연구자와 지역사회 모두가 활용할 수 있다. 그러나 몇 가지 한계도 존재한다. 첫째, 모든 언어에 동일한 벵골어 자극문을 사용함으로써 문화·언어적 차이에 따른 의미 변이를 충분히 반영하지 못했을 가능성이 있다. 둘째, 수집된 음성은 주로 실험실식 촉진 상황이므로 자연스러운 대화 흐름을 포착한 코퍼스와는 차이가 있다. 셋째, 일부 극소수 언어(예: 라렝, 타르)는 표본이 매우 제한적이어서 통계적 모델링에 어려움이 따를 수 있다. 그럼에도 불구하고, 이 코퍼스는 방글라데시 소수 언어를 처음으로 국가 규모에서 체계적으로 디지털화한 사례로, 저자원 언어의 음성·텍스트 병렬 데이터 확보가 얼마나 중요한지를 실증적으로 보여준다. 향후 연구에서는 자연 대화 데이터 보강, 문화적 맥락을 고려한 다중번역(예: 현지어‑벵골어‑영어) 체계 구축, 그리고 커뮤니티 주도형 데이터 지속 관리 모델을 도입함으로써 현재의 한계를 보완할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기