히브리어 주권 LLM의 새로운 도약 Dicta‑LM 3.0
초록
Dicta‑LM 3.0은 Mistral‑Small‑3.1, NVIDIA Nemotron‑Nano V2, Qwen3‑1.7B를 기반으로 24 B·12 B·1.7 B 규모의 히브리어·영어 혼합 모델을 65k 토큰 컨텍스트 길이와 툴 호출 기능을 갖춘 베이스·챗 버전으로 공개한다. 100 B 히브리어 토큰과 30 B 영어 토큰을 연속 사전학습하고, 2단계(4k→65k) 학습과 SFT 기반 챗 파인튜닝을 거쳐 히브리어 번역·요약·위노그라드·이스라엘 퀴즈·니쿠드 복원 등 새로운 베헬리 평가 벤치마크에서 기존 모델 대비 5‑30%p 향상을 달성했다.
상세 분석
본 논문은 저자들이 히브리어와 같이 데이터가 부족한 언어에 특화된 대규모 언어 모델을 구축하기 위해 취한 전 과정을 상세히 제시한다. 먼저 75 % 히브리어·25 % 영어 비율로 구성된 130 B 토큰(연속 사전학습 단계 1)과, 65 k 토큰 컨텍스트를 활용한 18 B 토큰(단계 2)이라는 두 단계의 학습 파이프라인을 설계하였다. 단계 1에서는 기존 모델의 파라미터를 그대로 유지하면서 4 k 시퀀스 길이와 다양한 배치·학습률 설정을 적용했으며, 단계 2에서는 문서 길이를 6 k 토큰 이상과 이하로 구분해 75 %를 장문, 25 %를 단문으로 샘플링함으로써 긴 문맥 이해 능력을 크게 향상시켰다.
모델 초기화는 히브리어 토큰화 효율성을 고려해 BPE 토크나이저가 히브리어 어휘를 충분히 커버하는 Mistral‑Small‑3.1(24 B), Nemotron‑Nano V2(12 B), Qwen3‑1.7B(1.7 B)를 선택하였다. 학습 인프라는 80대 H200 GPU가 장착된 NVIDIA DGX Cloud Lepton 클러스터와 NeMo 프레임워크를 활용해 대규모 분산 학습을 구현했으며, 배치 크기와 학습률을 모델 규모에 맞게 조정해 효율성을 극대화했다.
평가에서는 히브리어 LLM‑Leaderboard에 수록된 기존 베이스 모델 대비 24 B 모델이 4배 규모 모델과 동등하거나 우수한 성능을 보였으며, 특히 이스라엘 트리비아와 같은 도메인 특화 과제에서 최고 점수를 기록했다. 영어 벤치마크(Commonsense QA, WinoGrande, ARC‑Challenge)에서도 98 % 이상의 성능을 유지해 다국어 전이 능력을 입증했다.
챗 모델 구축을 위해서는 두 종류의 SFT 데이터(‘instruct’와 ‘thinking’)를 50 %씩 혼합하고, 히브리어 번역을 자체 베이스 모델로 수행해 데이터 품질을 확보했다. 툴 호출을 지원하도록 특수 토큰을 추가하고, Qwen3·DeepSeek·Hermes의 대화 포맷을 차용해 시스템·유저·어시스턴트 메시지 구조를 정의했다. 최종 챗 모델은 약 2 B 토큰(1.5 M 대화)과 3.2 B 토큰(725 k 대화) 규모의 SFT 데이터를 사용해 65 k 토큰 컨텍스트로 학습되었다.
핵심 인사이트는 (1) 기존 고성능 영어 기반 모델을 히브리어에 맞게 연속 사전학습하고, (2) 장문 컨텍스트를 도입해 복잡한 문맥 처리 능력을 강화한 점, (3) 자체 번역 파이프라인을 활용해 고품질 히브리어 대화 데이터를 효율적으로 구축한 점이다. 이러한 접근은 다른 저자원 언어에도 그대로 적용 가능함을 시사한다. 다만, 데이터 정제 과정에서 문화·정치적 편향이 남을 가능성, 65 k 토큰 학습이 요구하는 높은 메모리 비용, 그리고 툴 호출 스키마의 범용성 부족 등은 향후 개선이 필요한 제한점으로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기