아프리카 언어를 위한 지속적 사전학습: 데이터 혼합과 모델 구조의 영향
초록
본 연구는 20개 아프리카 언어에 대해 26 B 토큰 규모의 지속적 사전학습(CPT)을 수행한 AfriqueLLM을 소개한다. Llama 3.1, Gemma 3, Qwen 3 등 다섯 가지 베이스 모델을 대상으로, 수학·코드·기계 번역 합성 데이터가 포함된 다양한 데이터 믹스를 실험하였다. 결과는 데이터 구성 요소가 성능 향상의 가장 큰 요인이며, 모델 규모와 아키텍처도 중요한 역할을 한다는 것을 보여준다. 특히, 코드·수학·합성 번역 데이터를 추가하면 추론·수학 문제에서 일관된 개선이 관찰된다. 최종적으로 Qwen 3(8 B·14 B) 기반 모델이 다국어 및 장문 번역 성능에서 가장 우수했으며, 모든 모델은 HuggingFace에 공개된다.
상세 분석
AfriqueLLM 프로젝트는 저자들이 아프리카 언어 특유의 데이터 부족 문제를 해결하기 위해 설계한 일련의 지속적 사전학습(CPT) 실험이다. 먼저 20개 주요 아프리카 언어를 선정하고, FineWeb2, WURA, MADLAD‑400 등에서 수집한 22.8 B 토큰의 모노링구얼 텍스트를 기본 데이터로 사용하였다. 여기에는 고자원 언어인 영어·프랑스어·포르투갈어·아랍어를 각각 1 B 토큰으로 제한해 언어 불균형을 완화하고, UniMax 샘플링으로 저자원 언어의 에포크 수를 늘렸다.
데이터 믹스의 핵심은 세 가지 추가 요소이다. 첫째, 약 1 B 토큰 규모의 파이썬 코드(CornStack‑Python)와 1 B 토큰 규모의 수학 텍스트(FineMath‑4+)를 삽입해 논리·수리 추론 능력을 강화하였다. 둘째, GPT‑4.1을 활용해 10개 도메인(식품·보건·역사·산업·정치·과학·기술·소프트웨어·여행·교육·직업·엔터테인먼트)과 수학 문제를 17개 아프리카 언어로 기계 번역한 324 M 토큰의 합성 데이터(S)를 추가함으로써 지식 커버리지를 보강하고, 고자원 언어와의 분포 차이를 완화했다. 셋째, NLLB 프로젝트에서 추출한 456 M 토큰 규모의 고품질 병렬 데이터(P)를 포함해 교차언어 정렬을 강화하였다.
학습은 LLaMA‑Factory와 DeepSpeed ZeRO‑1/2, Flash Attention 3, Liger Kernel 등을 이용해 16노드·64 GPU(H100) 클러스터에서 진행했으며, 배치 크기 4 M 토큰, 학습률 5e‑5, 16 k 토큰 컨텍스트 길이, 코사인 스케줄러(워밍업 0.001, 최소 LR 비율 0.01) 등 최적 하이퍼파라미터를 사전 탐색했다.
평가는 AfroBench‑Lite의 7개 핵심 태스크(수학 AfriMGSM, 지식 AfriMMLU, NLI AfriXNLI, 독해 Belebele, 번역 Flores, 의도 Injongo, 주제 SIB)를 사용했으며, 번역 품질은 SSA‑COMET 점수로 측정했다. 결과는 네 가지 주요 인사이트를 제공한다. 첫째, 데이터 믹스가 성능 향상의 가장 강력한 변수이며, 특히 코드·수학·합성 번역을 모두 포함한 CM S P 조합이 모든 베이스 모델에서 일관된 상승을 보였다. 둘째, 동일 아키텍처 내에서는 모델 규모가 클수록 전반적인 점수가 높았지만, 아키텍처 간 비교에서는 규모만으로는 설명되지 않아 Qwen 3 8 B가 Gemma 12 B와 동등하거나 우수한 성능을 나타냈다. 셋째, 베이스 모델의 다국어 능력이 CPT 후 성능을 예측하지 못했으며, 대신 견고한 구조와 작업에 맞춘 데이터가 성공을 좌우했다. 넷째, 최종 Qwen 3 (8 B·14 B) 모델은 고자원 언어 성능을 유지하면서 장문 문서 번역 및 긴 컨텍스트 처리에서도 뛰어난 결과를 보여, 실제 적용 가능성을 높였다.
이 연구는 데이터 중심 접근이 저자원 언어에 대한 LLM 적응에 핵심임을 실증하고, 아프리카 언어 커뮤니티에 공개된 모델과 데이터 파이프라인을 제공함으로써 향후 연구와 실용화에 중요한 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기