데이터 선택이 포르투갈어 LLM 성능을 좌우한다
초록
본 논문은 LLaMA‑2 기반 7B 파라미터 모델을 포르투갈어 전용 데이터로 추가 학습한 Curió 7B와, 동일 코퍼스 중 교육·STEM 영역만 추출한 10 B 토큰 규모의 Curió‑Edu 7B를 비교한다. 양적 확대보다 고품질·주제 특화 데이터가 모델 성능 향상에 더 큰 영향을 미침을 실험적으로 입증한다.
상세 분석
본 연구는 두 가지 핵심 질문에 초점을 맞춘다. 첫째, 포르투갈어와 같이 사전 학습 단계에서 노출이 극히 제한된 언어에 대해, 대규모 비필터링 데이터(100 B 토큰)와 소규모 고품질 필터링 데이터(10 B 토큰) 중 어느 쪽이 더 효율적인지 여부이다. 둘째, 모델 규모가 데이터 선택 효과에 미치는 영향을 규명한다. 이를 위해 저자들은 LLaMA‑2 7B를 베이스 모델로 삼아, 원본 모델이 전체 토큰 중 0.05 %에 해당하는 약 10 B 토큰만 포르투갈어를 학습한 상태에서 추가 학습을 진행한다. Curió 7B는 ClassiCC‑PT 전체 코퍼스에서 100 B 토큰을 무필터링으로 학습했으며, Curió‑Edu 7B는 동일 코퍼스에서 교육·STEM 점수가 2.5 이상인 문서만 추출해 10 B 토큰(두 번 에폭)으로 학습했다. 학습 인프라는 TPU v2‑256을 활용한 T5x 프레임워크이며, Adafactor 옵티마이저와 코사인 학습률 스케줄을 적용해 10⁻³ 피크 학습률을 사용했다.
성능 평가는 포르투갈어 전용 벤치마크 PoET‑a V2를 사용했으며, NPM(Normalized Preferred Metric)으로 정규화된 점수를 보고한다. 7 B 모델에서는 Curió‑Edu가 5 B 토큰 학습 시점부터 32 NPM을 초과, 최종 36.3 NPM을 기록해 전체 코퍼스 모델(34.5 NPM)보다 약 2 포인트 앞섰다. 이는 데이터 양이 10배 적음에도 불구하고 20 % 수준의 연산 비용만으로 동일하거나 더 높은 성능을 달성했음을 의미한다. 반면 1.1 B 규모에서는 Curió‑Edu가 Curió보다 약간 뒤처지는 등, 모델 용량이 작을 경우 데이터 다양성 감소가 성능 이득을 제한한다는 점을 보여준다.
세부 서브카테고리 분석에서는 교육·STEM 필터링이 특히 Exams와 Math 영역에서 큰 향상을 보였지만, Reasoning, Ethics, General Knowledge 등 비전문 영역에서도 전반적인 상승이 관찰되었다. 이는 교육용 텍스트가 논리적 구조와 명확한 어휘를 제공해 모델의 전반적인 언어 이해와 추론 능력을 강화한다는 가설을 뒷받침한다. 또한, 필터링 과정에서 저품질·노이즈 문서를 제거함으로써 모델이 더 정제된 신호에 집중할 수 있었음이 추정된다.
연산 비용 측면에서 Curió 7B는 약 7 000 USD, Curió‑Edu 7B는 약 1 400 USD로, 동일 성능 대비 비용 효율성이 크게 개선되었다. 이는 제한된 연구 예산이나 산업 현장에서 빠른 도메인 적응이 요구될 때, 대규모 데이터 수집·정제보다 목표 도메인에 맞는 고품질 데이터 선별이 더 실용적임을 시사한다.
결론적으로, 본 논문은 (1) 데이터 양보다 질이 모델 성능에 결정적 영향을 미친다, (2) 모델 규모가 충분히 클 경우 고품질 필터링 데이터가 작은 데이터량으로도 큰 이득을 제공한다, (3) 교육·STEM 중심의 데이터가 포르투갈어 LLM의 전반적 언어 능력과 전문 지식 처리 능력을 동시에 향상시킨다 는 세 가지 핵심 인사이트를 제공한다. 이러한 결과는 다른 저자원 언어에도 동일한 전략을 적용할 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기