유럽어LLM 22B 기술 보고서
초록
EuroLLM‑22B는 24개 EU 공식 언어와 11개 추가 언어를 모두 지원하도록 설계된 22 억 파라미터 규모의 오픈 대형 언어 모델이다. 32 K 토큰 컨텍스트, 다단계 학습 스케줄, 고품질 필터링 파이프라인을 도입해 다언어 추론·지시 수행·번역에서 동등 규모의 기존 오픈 모델과 경쟁한다. 모델·데이터·코드 모두 공개되어 유럽 AI 연구 인프라 구축에 기여한다.
상세 분석
EuroLLM‑22B는 유럽 내 언어 다양성을 실질적으로 지원하기 위해 설계된 최초 규모의 오픈 LLM 중 하나이다. 모델 아키텍처는 기존 1.7 B·9 B 버전과 동일하게 그룹드 쿼리 어텐션(GQA), RMSNorm, SwiGLU, RoPE(θ = 10⁶) 등을 채택했으며, 54개의 트랜스포머 레이어와 48개의 헤드, 6 144 차원의 임베딩을 갖는다. 특히 32 K 토큰의 확장된 컨텍스트 윈도우는 장문 문서 요약·코드 분석 등 장기 의존성을 요구하는 작업에서 큰 이점을 제공한다.
데이터 측면에서 EuroLLM‑22B는 약 4 조 토큰을 3단계 학습 스케줄에 따라 섭취한다. 1단계에서는 고품질 교육용 웹 데이터(FineWeb‑edu)와 다언어 웹 코퍼스를 혼합해 3.6 T 토큰을 학습하고, 2·3단계에서는 품질 점수(EuroFilter) 기반으로 티어를 나누어 점진적으로 높은 품질의 데이터와 병렬·코드·수학 데이터(예: FineMath, GSM8k, The Stack)를 추가한다. 이 과정에서 언어별 전처리(중복 제거, 퍼플렉시티 필터, 휴리스틱 필터)와 Bicleaner·CometKiwi‑22 기반의 번역 품질 검증을 수행해 노이즈를 최소화한다.
포스트 트레이닝에서는 EuroBlocks‑22B라는 10.6 M 규모의 다언어 지시‑응답 데이터셋을 구축한다. 기존 EuroBlocks에 더해 STEM·코드·수학 분야의 고품질 프롬프트와 최신 모델(Qwen‑2.5, Gemma‑2, Llama 3.1 등)로 생성된 답변을 수집·재평가해 최고의 응답을 선택한다. 이 데이터는 60 %가 영어, 20 %가 다언어 일반 텍스트, 나머지 20 %가 코드·수학·STEM으로 구성돼 모델의 전반적인 지시 수행 능력을 크게 향상시킨다.
학습 최적화는 Axolotl·Liger‑Kernel을 활용해 bfloat16 혼합 정밀도, 시퀀스 패킹, 코사인 LR 스케줄(최대 1e‑5) 등으로 5 epoch을 진행한다. 결과적으로 EuroLLM‑22B‑Instruct는 32 768 토큰까지 지원하는 긴 입력에서도 안정적인 성능을 보이며, 다언어 추론·번역·코드·수학 문제 해결에서 동등 규모의 오픈 모델(Llama 3, Mistral 등)과 경쟁한다.
강점으로는(1) 24개 EU 언어 전부를 네이티브 수준으로 지원한다는 포괄성, (2) 32 K 토큰 컨텍스트를 통한 장문 처리 능력, (3) 체계적인 데이터 필터링·티어링으로 고품질 학습 데이터 확보, (4) 완전 공개(모델·데이터·코드)로 연구 재현성과 커뮤니티 기여를 촉진한다는 점을 들 수 있다. 반면(1) 평가 결과가 표 형태로 제시되지 않아 구체적인 벤치마크 점수 비교가 어려운 점, (2) 대규모 학습에 필요한 GPU·전력 비용이 높은 점, (3) 토크나이저가 128 k vocab으로 설정돼 일부 소수 언어에서 서브워드 분할이 과도할 가능성, (4) 장문 컨텍스트 확장에 따른 메모리·연산 효율성에 대한 상세 분석이 부족한 점이 아쉬운 부분이다. 전반적으로 EuroLLM‑22B는 유럽 AI 생태계에 중요한 기반을 제공하며, 향후 다언어 LLM 연구와 산업 적용에 있어 기준점이 될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기