아라토큰 아랍어 최적화 토크나이저와 언어 확장 파이프라인

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.18399
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

토크나이징은 대형 언어 모델(LLM)의 전처리 단계에서 핵심적인 역할을 하며, 학습 효율성과 다운스트림 성능에 직접적인 영향을 미친다. 기존의 영어 및 라틴 문자 기반 일반 토크나이저는 형태학적으로 풍부한 아랍어에 대해 토큰 시퀀스가 과도하게 늘어나고 압축 효율이 저하되는 문제를 보인다. 본 연구에서는 아랍어 특유의 알리프 변형, 모음 부호, 아라비아-인도 숫자 등을 정규화하는 포괄적인 파이프라인을 갖춘 SentencePiece Unigram 기반 토크나이저 AraToken을 제안한다. BPE, Word‑Piece, SentencePiece 알고리즘을 다양한 설정으로 비교한 결과, 정규화를 적용한 SentencePiece가 토큰당 단어 비율(1.199)에서 정규화되지 않은 베이스라인(1.35)보다 18 % 낮은 출산율을 달성함을 확인했다. 또한, Vocabulary 확장과 평균 서브토큰 초기화, 선택적 트랜스포머 레이어 언프리징을 포함하는 Language Extension Pipeline(LEP)을 통해 AraToken을 Qwen3‑0.6B에 통합하였다. 실험 결과, 100 K 아랍어 샘플에 대해 800 학습 스텝만 수행했을 때 평가 손실이 8.28에서 2.43으로 크게 감소하였다. 우리는 아랍어 NLP 연구를 촉진하기 위해 토크나이저, 학습 스크립트, 모델 체크포인트를 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

본 논문은 현재 LLM 생태계에서 가장 흔히 사용되는 토크나이저가 영어 중심으로 설계되어 있다는 점을 비판적으로 조명한다. 영어와 달리 아랍어는 어근과 접사, 어미가 복합적으로 결합되는 형태소 구조를 가지고 있으며, 알리프(ا)와 알리프 마크(أ, إ, آ) 등 다양한 표기 변형, 모음 부호(다이아크리틱), 그리고 아라비아-인도 숫자 체계가 공존한다. 이러한 특성은 동일한 의미를 가진 단어라도 문자 수준에서 여러 형태로 나타날 수 있음을 의미한다. 일반 토크나이저가 이러한 변형을 무시하고 그대로 학습 데이터에 적용하면, 동일 어휘가 서로 다른 토큰 시퀀스로 분할되어 토큰 사전 크기가 비효율적으로 증가하고, 결과적으로 모델이 동일 의미를 여러 번 학습해야 하는 중복 비용이 발생한다.

AraToken은 이러한 문제를 해결하기 위해 두 단계의 접근을 채택한다. 첫 번째는 정규화 파이프라인으로, 알리프 변형을 하나의 표준 형태(예: 알리프 무마크)로 통합하고, 불필요한 모음 부호를 제거하거나 선택적으로 보존하며, 아라비아-인도 숫자를 서구식 아라비아 숫자로 변환한다. 이 과정은 텍스트의 의미를 보존하면서 문자 변형을 최소화한다. 두 번째는 SentencePiece Unigram 모델을 적용하는데, 이는 BPE와 달리 토큰 빈도와 확률적 모델링을 동시에 고려해 최적의 서브워드 분할을 찾는다. 실험에서는 BPE, Word‑Piece, Unigram을 동일한 어휘 크기(32 K)와 동일 데이터(다양한 아랍어 코퍼스)로 학습시켰으며, 정규화가 적용된 Unigram이 가장 낮은 fertility(1.199)를 기록했다. 이는 평균적으로 한 단어당 1.199개의 토큰만 필요하다는 의미로, 기존 베이스라인(1.35) 대비 18 % 토큰 수가 절감된 것이다. 토큰 수 절감은 학습 시 메모리 사용량 감소와 연산 효율성 향상으로 직결된다.

또한, AraToken을 기존 대형 모델에 통합하는 **Language Extension Pipeline(LEP)**을 제안한다. LEP는 기존 모델의 어휘를 확장하면서 새로 추가된 서브토큰을 기존 토큰들의 평균 임베딩으로 초기화한다. 이는 완전한 재학습 없이도 새로운 어휘가 모델 내부 표현 공간에 자연스럽게 녹아들게 한다. 더불어, 전체 트랜스포머 레이어를 동결하고, 새 어휘와 연관된 마지막 몇 개 레이어만 언프리징하여 빠른 적응을 가능하게 한다. 실험에서는 Qwen3‑0.6B 모델에 AraToken을 적용하고, 100 K 아랍어 샘플(약 2 GB)로 800 스텝(≈0.5 epoch)만 학습시켰을 때 평가 손실이 8.28에서 2.43으로 급격히 감소하였다. 이는 토크나이저 최적화와 레이어 선택적 미세조정이 결합될 때, 대규모 사전 학습 모델이 새로운 언어에 빠르게 적응할 수 있음을 입증한다.

마지막으로, 연구팀은 토크나이저 파일, 정규화 스크립트, 학습 파이프라인, 그리고 LEP를 적용한 모델 체크포인트를 모두 공개한다. 이는 아랍어 NLP 커뮤니티가 자체 모델을 구축하거나 기존 모델에 아랍어 지원을 추가하는 데 필요한 모든 자원을 제공한다는 점에서 큰 의미가 있다. 향후 연구에서는 다중 방언(예: 마그레브, 걸프) 및 코드스위칭 상황에 대한 정규화 전략을 확장하고, 토크나이저와 모델 통합을 자동화하는 메타-학습 프레임워크를 탐색할 계획이다.

📄 논문 본문 발췌 (Translation)

토크나이징은 대형 언어 모델(LLM)의 전처리 단계에서 핵심적인 역할을 하며, 학습 효율성과 다운스트림 성능에 직접적인 영향을 미친다. 기존의 영어 및 라틴 문자 기반 일반 토크나이저는 형태학적으로 풍부한 아랍어에 대해 토큰 시퀀스가 과도하게 늘어나고 압축 효율이 저하되는 문제를 보인다. 본 연구에서는 아랍어 특유의 알리프 변형, 모음 부호, 아라비아-인도 숫자 등을 정규화하는 포괄적인 파이프라인을 갖춘 SentencePiece Unigram 기반 토크나이저 AraToken을 제안한다. BPE, Word‑Piece, SentencePiece 알고리즘을 다양한 설정으로 비교한 결과, 정규화를 적용한 SentencePiece가 토큰당 단어 비율(1.199)에서 정규화되지 않은 베이스라인(1.35)보다 18 % 낮은 출산율을 달성함을 확인했다. 또한, Vocabulary 확장과 평균 서브토큰 초기화, 선택적 트랜스포머 레이어 언프리징을 포함하는 Language Extension Pipeline(LEP)을 통해 AraToken을 Qwen3‑0.6B에 통합하였다. 실험 결과, 100 K 아랍어 샘플에 대해 800 학습 스텝만 수행했을 때 평가 손실이 8.28에서 2.43으로 크게 감소하였다. 우리는 아랍어 NLP 연구를 촉진하기 위해 토크나이저, 학습 스크립트, 모델 체크포인트를 공개한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키