아라토큰 아랍어 토크나이저 최적화와 Qwen3 언어 확장

초록

AraToken는 SentencePiece Unigram 기반의 아랍어 전용 토크나이저로, 알리프 변형·디아크리틱·아라비아 숫자 등 특수 표기법을 정규화하는 파이프라인을 도입한다. BPE·WordPiece와 비교해 18 % 낮은 토큰당 단어 비율(1.199 vs 1.35)을 달성했으며, LEP(언어 확장 파이프라인)를 통해 Qwen3‑0.6B 모델에 vocab 확장·평균 서브토큰 초기화·선택적 레이어 언프리징을 적용, 100 K 아랍어 샘플 800 스텝 학습만으로 평가 손실을 8.28에서 2.43으로 크게 감소시켰다. 토크나이저와 스크립트, 체크포인트를 공개한다.

상세 요약

AraToken 논문은 대형 언어 모델(LLM) 전처리 단계에서 토크나이저가 차지하는 비중을 재조명한다. 기존 토크나이저는 영어와 라틴 문자 기반 코퍼스로 학습돼 아랍어와 같이 형태소가 풍부하고 표기 변이가 많은 언어에 대해 토큰 수가 급증하는 ‘fertility’ 문제를 야기한다. 이를 해결하기 위해 저자들은 세 가지 핵심 전략을 제시한다. 첫째, 아랍어 고유의 정규화 파이프라인을 설계했다. 여기에는 알리프(ا, أ, إ, آ)의 통합, 하마자와 타마마(ة) 표기 통일, 디아크리틱(모음 부호) 제거, 아라비아-인도 숫자(٠‑٩)를 서구식(0‑9)으로 변환하는 단계가 포함된다. 이러한 정규화는 동일 의미 단어가 서로 다른 형태로 나타나는 경우를 최소화해 토크나이저가 더 큰 단위의 서브워드를 학습하도록 만든다. 둘째, 토크나이저 알고리즘을 비교했다. BPE와 WordPiece는 기존에 널리 쓰이지만, SentencePiece의 Unigram 모델은 사전 확률 기반으로 서브워드 후보를 동적으로 선택한다. 실험에서는 동일 vocab 크기(32 K)와 동일 학습 데이터(30 M 아랍어 문장)에서 Unigram가 가장 낮은 fertility(1.199)를 기록했고, BPE(1.35)와 WordPiece(1.32)보다 토큰 효율성이 현저히 높았다. 셋째, Qwen3‑0.6B에 아라토큰을 적용하는 Language Extension Pipeline(LEP)를 제안한다. 기존 vocab에 아랍어 전용 서브토큰 8 K를 추가하고, 새 토큰의 임베딩을 기존 토큰 평균값으로 초기화함으로써 급격한 파라미터 변동을 방지한다. 또한, 변환된 레이어 중 상위 4개의 트랜스포머 블록만 언프리징해 아랍어 특화 학습을 진행했으며, 이는 전체 모델을 재학습하는 비용을 크게 절감한다. 실험 결과, 100 K 아랍어 샘플(약 2 GB)로 800 스텝(≈0.5 epoch) 학습했을 때 평가 손실이 8.28에서 2.43으로 70 % 이상 감소했으며, 토큰당 평균 손실도 크게 개선되었다. 이러한 결과는 정규화와 vocab 확장이 토크나이저 효율성을 높이고, LLM이 새로운 언어를 빠르게 적응할 수 있음을 입증한다. 마지막으로 저자들은 토크나이저 코드, 학습 스크립트, 확장된 Qwen3 체크포인트를 오픈소스로 제공해 아랍어 NLP 연구 커뮤니티에 기여한다는 점을 강조한다.

초록

상세 요약

📜 논문 원문 (영문)