전문 분야를 위한 토크나이저 적응

전문 분야를 위한 토크나이저 적응
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 BPE 토크나이저를 도메인·언어별 특성에 맞게 가볍게 재구성하는 AdaptBPE 방법을 제안한다. 고정된 병합 예산 하에서 저빈도 토큰을 교체해 적응 코퍼스의 토큰 수를 최소화하고, 모델 파라미터는 변경하지 않는다. 다국어·단일언어 생성·분류·번역 실험을 통해 동일 vocab 크기 대비 압축 효율과 추론 속도가 향상됨을 입증한다.

상세 분석

AdaptBPE는 기존 대규모 언어 모델이 사용하는 BPE 토크나이저를 사후에 가볍게 최적화하는 알고리즘이다. 핵심 아이디어는 “merge budget” N을 미리 정하고, 사전 학습된 전체 merge 리스트 µ =


댓글 및 학술 토론

Loading comments...

의견 남기기