브라질 AI를 위한 언어 다양성 및 디지털 포용 과제

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 브라질의 언어 다양성을 고려하지 않은 대규모 언어 모델(LLM) 개발이 초래하는 편향과 문화적 소외 문제를 짚고, 포괄적 데이터 수집·저장·공유 인프라 구축을 통해 윤리적·주권적 AI를 구현하기 위한 정책·기술적 권고안을 제시한다.

상세 분석

이 논문은 사회언어학적 관점에서 현재 브라질 정부가 추진 중인 ‘AI for the Good of All’ 정책과 연계된 언어 다양성 목표를 비판적으로 검토한다. 저자는 먼저 포르투갈어가 국가 공식 언어로 규정돼 있음에도 불구하고, 브라질 내에 존재하는 23개의 공용어와 6개의 언어군(원주민, 아프리카계, 이민, 수화, 크리올, 포르투갈어 변이) 등을 법적·문화적 근거를 들어 강조한다. 특히, 헌법·법령·인디언 언어 정책 등에서 언어 다원주의가 명시되어 있음에도 실제 AI 학습 데이터는 포르투갈어(주로 브라질 변이)만을 중심으로 수집·정제되고 있음을 지적한다. 이는 ‘언어 선택 편향(variety selection bias)’을 강화해, 사회적·경제적 약자 집단의 언어가 모델에서 소외되고, 결과적으로 차별적 응답을 생성하게 만든다.

논문은 영어권에서 보고된 AAE(아프리카계 미국 영어)와 같은 사례를 인용해, 언어 편향이 자동화된 서비스(음성 인식, 챗봇 등)에서 어떻게 실질적 불이익으로 전이되는지를 보여준다. 브라질 상황에 적용하면, 토착어·리브라스·크리올 등은 데이터 부족으로 모델의 성능이 저하되고, 이는 교육·보건·공공 서비스 디지털 전환 과정에서 해당 커뮤니티가 배제되는 악순환을 만든다.

해결책으로 저자는 두 차원의 접근을 제안한다. 첫째, ‘언어 문서화·데이터베이스 구축’ 차원에서 현재 산재된 현장 조사 자료, 전사·주석 데이터 등을 표준 메타데이터와 저장 프로토콜을 적용해 국가 차원의 ‘언어 다양성 플랫폼’에 통합해야 한다고 주장한다. 이는 ABRALIN·ANPOLL 주도의 협업 모델을 기반으로 하며, 데이터의 재사용·공유를 촉진한다. 둘째, ‘모델 학습·평가’ 차원에서 다언어·다변이 데이터셋을 의도적으로 포함하고, 편향 검증 지표를 설계해 학습 단계부터 다양성을 보장해야 한다는 점을 강조한다. 특히, 포르투갈어 내부에서도 지역·사회적 변이를 균형 있게 샘플링하고, 비포르투갈어 언어는 별도 서브모델 혹은 멀티모달 접근으로 통합하는 방안을 제시한다.

이러한 제언은 단순히 기술적 해결책을 넘어, ‘디지털 주권’이라는 국가 전략과 ‘언어 정의’를 연결하는 정책적 함의를 가진다. 즉, 브라질이 AI 분야에서 국제 경쟁력을 확보하려면, 언어 다양성을 국가 문화유산의 핵심 자산으로 인식하고, 이를 데이터 인프라와 교육 커리큘럼에 체계화해야 한다는 논리이다.

브라질 AI를 위한 언어 다양성 및 디지털 포용 과제

초록

상세 분석

댓글 및 학술 토론

의견 남기기