저자금 언어 모델, 350개 언어에 금붕어처럼 뛰어오르다
초록
Goldfish 프로젝트는 350개 저자원 언어에 대해 125M 파라미터 규모의 단일 언어 모델을 1GB 이하 데이터로 학습시켜, 기존 대형 다국어 모델보다 낮은 퍼플렉시티와 문법성 점수를 기록했다. 특히 FLORES 평가에서 24%~43%의 언어에서 빅그램보다 우수했으며, MultiBLiMP에서도 다국어 모델을 앞섰다.
상세 분석
본 논문은 저자원 언어에 대한 기존 접근법이 대형 다국어 모델에 의존한다는 점을 비판한다. XGLM 4.5B, BLOOM 7.1B 등 수십억 파라미터 규모의 모델이 FLORES 퍼플렉시티 기준으로 빅그램보다 열등한 경우가 다수 존재한다는 실험 결과는, 단순히 파라미터를 늘리는 것이 데이터 불균형을 해소하지 못한다는 것을 시사한다. Goldfish는 125M 파라미터 GPT‑2 구조를 채택하고, 각 언어별로 5 MB, 10 MB, 100 MB, 1 GB 네 단계의 데이터 규모를 바이트 프리미엄을 적용해 균등하게 샘플링한다. 바이트 프리미엄은 UTF‑8 인코딩 차이를 보정해 ‘영어 기준 바이트’를 정의함으로써, 문자 집합이 복잡한 언어에서도 동일한 학습량을 확보한다는 점이 혁신적이다. 토크나이저는 50K 유니그램 vocab을 각 언어·데이터 규모별로 독립 학습해, 언어 특유의 형태소와 어휘를 최대한 보존한다. 학습은 10 epoch을 고정하고, 과적합을 방지하기 위해 5 MB 규모에서는 조기 중단을 적용한다. 전체 연산량은 1.65 × 10²⁰ FLOPs로, GPT‑3(3.14 × 10²³ FLOPs)의 1/1900 수준에 불과해 비용 효율성이 뛰어나다. 평가에서는 FLORES‑200의 로그 퍼플렉시티를 시퀀스 절반을 조건으로 계산해 다국어 모델과 직접 비교했으며, Goldfish는 204개 언어 중 98개에서 모든 비교 모델보다 낮은 퍼플렉시티를 기록했다. 특히 1 GB 데이터가 확보된 언어에서는 평균 13% 낮은 퍼플렉시티를 보이며, 빅그램 대비 24%~43% 더 높은 승률을 나타냈다. 문법성 평가인 MultiBLiMP에서도 74개 언어 중 25개에서 최고 정확도를 달성했으며, 이는 작은 단일 언어 모델이 언어 고유의 구문 규칙을 더 잘 학습한다는 증거다. 반면 추론 벤치마크(Belebele, XCOPA, XStoryCloze)에서는 모든 모델이 거의 우연 수준의 성능을 보여, 현재 규모의 사전학습만으로는 고차원 추론 능력이 제한적임을 확인한다. 전체적으로 Goldfish는 저자원 언어에 특화된 경량 모델이 대형 다국어 모델을 능가할 수 있음을 실증하고, 데이터 수집·전처리, 바이트 프리미엄 스케일링, 맞춤형 토크나이저 설계가 핵심 성공 요인임을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기