멀티링꿀 LLM을 위한 연속 사전학습 전략: 병렬 데이터와 순서의 효과
초록
**
본 연구는 OLMo 2 기반 LLM을 대상으로 다섯 가지 연속 사전학습(CPT) 설정(멀티링꿀, 혼합, 병렬‑우선, 병렬‑후, 병렬‑전용)을 제안하고, 25 % 재현 비율을 적용해 동남아시아 언어와 영어 간 병렬 코퍼스를 활용한다. 실험 결과, 병렬 데이터만을 사용한 ‘병렬‑전용’ 설정이 기존 멀티링꿀 방식과 동등하거나 우수한 다언어 성능을 보이며, 데이터 순서가 교차언어 정렬과 일반화에 큰 영향을 미침을 확인하였다.
**
상세 분석
**
본 논문은 대규모 언어 모델을 새로운 언어에 적응시키는 과정에서 데이터 구성과 순서가 모델의 다언어 능력에 미치는 영향을 체계적으로 조사한다. 먼저, OLMo 2(1 B 및 7 B 파라미터) 모델을 4조 토큰의 일반 도메인 데이터로 사전학습한 뒤, 동남아시아 8개 언어와 영어 사이의 병렬 코퍼스(총 403.8 M 문장, 17.2 B 토큰)를 이용해 연속 사전학습을 진행한다. 이때 재현 데이터는 전체 학습 블록의 25 %를 차지하도록 설정했으며, 이는 이전 연구(Ibrahim et al., 2024)의 권고에 따른 것이다.
다섯 가지 CPT 설정은 다음과 같다. (1) 멀티링꿀: 순수 다국어 단일언어 블록만 사용, 언어별 블록을 균등 샘플링한다. (2) 혼합: 단일언어 블록과 병렬 블록을 교대로 삽입해 매 배치에 최소 하나씩 포함한다. (3) 병렬‑우선: 초기 단계에서 병렬 블록을 모두 소진한 뒤 다국어 블록으로 전환한다. 이는 초기 교차언어 정렬을 촉진한다는 가설에 기반한다. (4) 병렬‑후: 먼저 다국어 블록을 학습하고, 이후 병렬 블록을 도입한다. 이는 언어별 유창성을 먼저 확보한 뒤 정렬을 강화한다는 전략이다. (5) 병렬‑전용: 병렬 블록과 재현 블록만 사용해 단일언어 데이터를 완전히 배제한다.
실험에서는 각 설정별로 1 B 모델을 10 B 토큰, 7 B 모델을 34.7 B 토큰 규모로 학습시켰으며, 동일한 학습 스케줄러(WSD)와 하이퍼파라미터를 적용해 비교 가능성을 확보했다. 평가 지표는 번역 정확도, 다언어 이해 벤치마크, 그리고 교차언어 전이 효율성을 포함한다. 결과는 다음과 같다. 첫째, 병렬‑전용 설정이 기존 멀티링꿀 대비 번역 BLEU 점수와 다언어 QA 정확도에서 평균 2~3 % 향상을 보였다. 둘째, 병렬‑우선이 초기 정렬 학습에 유리해 빠른 수렴 속도를 나타냈으며, 학습 초기에 성능 급등을 보였다. 반면 병렬‑후는 초기 유창성은 높았지만 최종 교차언어 정렬에서는 다소 뒤처졌다. 셋째, 혼합 설정은 안정적인 성능을 제공했지만, 병렬 데이터 비중이 낮아 최적화된 정렬을 달성하는 데 한계가 있었다. 마지막으로, 재현 비율 25 %는 모델이 이전에 학습한 도메인과 언어를 유지하면서 새로운 언어에 적응하도록 하는 데 충분히 효과적이었다.
이러한 결과는 병렬 코퍼스가 다언어 LLM의 교차언어 정렬을 촉진하고, 적절한 순서 설계가 모델의 전이 학습 효율을 크게 향상시킬 수 있음을 시사한다. 특히, 병렬 데이터만으로도 충분히 강력한 다언어 능력을 확보할 수 있음을 보여주어, 향후 저자원 언어를 위한 효율적인 CPT 전략 설계에 중요한 지침을 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기