다문화 아마리어 스토리 QA 벤치마크와 LLM 평가
초록
본 논문은 아마리어를 사용하는 에티오피아 내 다양한 지역의 문화적 차이를 반영한 장문 스토리 질문답변 데이터셋 AmharicStoryQA를 제시한다. 9개 지역에서 수집한 244개의 이야기와 571개의 학습·649개의 테스트 예제로 구성된 이 벤치마크를 통해 7개의 오픈소스 대형 언어 모델(LMM)의 제로샷 성능을 평가하고, 지역·언어·프롬프트 유형에 따른 성능 편차를 분석한다. 또한 LoRA 기반 감독 미세조정을 적용했을 때 지역별 개선 정도가 고르게 나타나지 않음을 확인한다. 연구 결과는 단일 언어 내에서도 문화적 다양성을 고려한 평가가 필요함을 강조한다.
상세 분석
AmharicStoryQA는 기존 다국어·다문화 평가가 “언어 = 문화”라는 단순 가정을 깨고, 동일 언어 내에서도 지역별 문화·역사·사회적 차이가 모델 성능에 미치는 영향을 정량화한다는 점에서 의미가 크다. 데이터 구축 과정은 크게 네 단계로 나뉜다. 첫째, 에티오피아 9개 지역(아파르, 암하라, 베니샹굴‑구무즈, 하라, 오로미아, 남부·북동부 지역 등)에서 224개의 전통 설화를 수집하고, 영어와 아마리어로 병렬화하였다. 둘째, GPT‑4.1을 활용해 각 이야기당 5개의 질문을 자동 생성하고, 정답과 3개의 교란 선택지를 설계해 MCQA 형식을 만든다. 셋째, 인간 평가자 3명이 ‘정확성·충실도’, ‘언어적 품질·명료성’, ‘이해도·난이도’ 세 축을 기준으로 질문을 검증했으며, Gwet’s AC1 지표를 통해 높은 평가자 간 일치도를 확보하였다. 넷째, 아마리어 번역 품질을 SSA‑COMET 점수(0.65 이하)와 인간 검수를 병행해 보정함으로써, 저자원 언어에서 흔히 발생하는 자동 번역 오류를 최소화했다.
데이터는 MCQA와 자유형 생성 질문을 모두 포함해 모델의 선택형 이해와 서사적 생성 능력을 동시에 평가한다. 실험에서는 128k 토큰 컨텍스트를 지원하는 7개 오픈소스 LLM(Gemma‑3‑27B‑IT, Llama 3.1 8B Instruct 등)을 lm‑eval 프레임워크로 제로샷 테스트했으며, 로그우도 기반 MCQA 정확도와 chrF 점수(생성 품질)를 보고하였다. 결과는 지역별 성능 편차가 뚜렷했으며, 특히 남부·북동부 지역 이야기에서 정확도가 10~15% 낮게 나타났다. 이는 해당 지역의 방언·문화적 특성이 모델에 충분히 반영되지 않았음을 시사한다.
감독 미세조정은 LoRA 방식으로 3 epoch, rank 8, 배치 8로 수행했으며, 영어 전용, 아마리어 전용, 다언어 혼합 세 가지 데이터셋을 사용했다. 미세조정 후 전반적인 정확도는 상승했지만, 지역별 개선 폭은 고르지 않았다. 예를 들어, 암하라 지역에서는 8% 상승했지만, 오로미아·남부 지역에서는 2% 이하에 머물렀다. 이는 문화적 특수성이 포함된 훈련 데이터가 충분히 다양하지 않거나, 모델 구조 자체가 지역 특화 정보를 효율적으로 학습하지 못한다는 한계를 드러낸다.
또한 프롬프트 언어(영어 vs. 아마리어)와 질문 형식(선택형 vs. 생성형) 간 상호작용을 분석했는데, 아마리어 프롬프트가 영어 프롬프트에 비해 전반적으로 낮은 성능을 보였다. 이는 모델이 영어 기반 사전학습에 비해 아마리어 입력을 처리하는 능력이 제한적임을 의미한다.
이 논문은 저자원 언어에 대한 평가가 단순 번역·다언어 확장에 머물지 않고, 해당 언어 사용자의 문화적 다양성을 반영해야 함을 실증적으로 보여준다. 데이터셋 공개와 함께 제시된 평가 파이프라인은 향후 다른 저자원 언어·문화에 대한 벤치마크 구축에 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기