길이최적 토크나이저로 토큰 수와 연산 효율 크게 향상
📝 Abstract
We introduce a new tokenizer for language models that minimizes the average tokens per character, thereby reducing the number of tokens needed to represent text during training and to generate text during inference. Our method, which we refer to as the Length-MAX tokenizer, obtains its vocabulary by casting a length-weighted objective maximization as a graph partitioning problem and developing a greedy approximation algorithm. On FineWeb and diverse domains, it yields 14-18% fewer tokens than Byte Pair Encoding (BPE) across vocabulary sizes from 10K to 50K, and the reduction is 13.0% when the size is 64K. Training GPT-2 models at 124M, 355M, and 1.3B parameters from scratch with five runs each shows 18.5%, 17.2%, and 18.5% fewer steps, respectively, to reach a fixed validation loss, and 13.7%, 12.7%, and 13.7% lower inference latency, together with a 16% throughput gain at 124M, while consistently improving on downstream tasks including reducing LAMBADA perplexity by 11.7% and enhancing HellaSwag accuracy by 4.3%. Moreover, the Length-MAX tokenizer achieves 99.62% vocabulary coverage and the out-of-vocabulary rate remains low at 0.12% on test sets. These results demonstrate that optimizing for average token length, rather than frequency alone, offers an effective approach to more efficient language modeling without sacrificing-and often improving-downstream performance. The tokenizer is compatible with production systems and reduces embedding and KV-cache memory by 18% at inference.
💡 Analysis
Length‑MAX 토크나이저는 기존 BPE와 같은 빈도 기반 서브워드 토크나이저가 갖는 근본적인 한계를 극복하려는 시도로, “문자당 평균 토큰 길이”라는 새로운 최적화 목표를 도입한다는 점에서 혁신적이다. 전통적인 BPE는 가장 빈번히 등장하는 문자 쌍을 반복적으로 병합함으로써 어휘를 구성한다. 이 과정은 어휘 크기가 제한될 때 긴 단어를 여러 짧은 토큰으로 분할하게 만들며, 결과적으로 평균 토큰 길이가 짧아져 토큰 수가 증가한다. 반면 Length‑MAX는 각 후보 서브워드에 길이 가중치를 부여해, 동일한 어휘 크기 내에서 가능한 한 긴 서브워드를 선택하도록 설계되었다. 이를 위해 저자들은 토크나이저 어휘 구축 문제를 그래프 분할 문제로 모델링하고, 탐욕적 근사 알고리즘을 적용해 효율적으로 최적 해에 근접한다. 그래프의 정점은 문자 혹은 기존 서브워드 후보를, 간선은 병합 가능성을 나타내며, 가중치는 병합 후 얻어지는 토큰 길이와 빈도 정보를 복합적으로 반영한다. 탐욕적 알고리즘은 매 단계에서 “길이 대비 효율이 가장 높은” 병합을 선택함으로써 전체 토큰 수를 최소화한다.
실험 결과는 이 접근법이 실제 모델 학습과 추론에 미치는 영향을 설득력 있게 보여준다. FineWeb과 다중 도메인 코퍼스에서 10K‑64K 어휘 크기 전반에 걸쳐 BPE 대비 13‑18% 토큰 수 감소를 달성했으며, 이는 동일한 텍스트를 처리할 때 입력 시퀀스 길이가 짧아진다는 의미다. 토큰 수 감소는 곧 연산량 감소와 메모리 사용량 절감으로 이어진다. 저자들은 124M, 355M, 1.3B 파라미터 규모의 GPT‑2 모델을 각각 5번씩 학습시켜, 고정된 검증 손실에 도달하기 위해 필요한 학습 단계가 평균 17‑19% 감소했음을 보고한다. 이는 동일한 학습 비용으로 더 많은 데이터 혹은 더 큰 모델을 학습할 수 있는 가능성을 열어준다. 추론 측면에서도 평균 지연 시간이 12‑14% 감소하고, 124M 모델에서는 처리량이 16% 증가했다. 이러한 효율성 향상은 특히 대규모 서비스 환경에서 KV‑cache와 임베딩 메모리를 18% 절감함으로써 비용 절감 효과를 극대화한다.
다운스트림 성능에 대한 평가도 흥미롭다. LAMBADA와 같은 장기 의존성 평가에서 퍼플렉시티가 11.7% 감소했으며, HellaSwag와 같은 commonsense 추론 과제에서 정확도가 4.3% 상승했다. 이는 토큰 수를 줄이면서도 의미 정보를 충분히 보존하거나 오히려 더 풍부하게 캡처했음을 시사한다. 어휘 커버리지는 99.62%에 달하고, OOV 비율은 0.12%에 불과해 실용적인 적용에 큰 장애물이 없음을 확인한다.
하지만 몇 가지 한계도 존재한다. 탐욕적 근사 알고리즘은 전역 최적을 보장하지 않으며, 특정 언어 혹은 특수 도메인(예: 코드, 수식)에서는 길이 최적화가 오히려 의미 손실을 초래할 가능성이 있다. 또한 어휘 크기가 매우 큰 경우(예: 200K 이상) 길이 가중치와 빈도 가중치 사이의 트레이드오프를 어떻게 조정할지에 대한 명확한 가이드라인이 부족하다. 향후 연구에서는 다중 목표 최적화(길이, 빈도, 의미 일관성)를 동시에 고려하는 보다 정교한 그래프 분할 기법이나, 학습 중 동적으로 어휘를 조정하는 메커니즘을 탐색할 필요가 있다.
종합하면, Length‑MAX 토크나이저는 토큰화 단계에서의 효율성을 크게 개선함으로써 전체 언어 모델 파이프라인의 비용과 성능을 동시에 향상시킬 수 있는 실용적인 솔루션이다. 특히 대규모 LLM을 운영하는 기업이나 연구기관에서 바로 적용 가능하다는 점은 이 연구의 가장 큰 강점이라 할 수 있다.
📄 Content
우리는 평균 문자당 토큰 수를 최소화함으로써 학습 중 텍스트를 표현하고 추론 시 텍스트를 생성하는 데 필요한 토큰 수를 감소시키는 새로운 토크나이저를 제안한다. 본 방법을 Length‑MAX 토크나이저라고 부르며, 길이 가중 목표 함수를 그래프 분할 문제로 변환하고 탐욕적 근사 알고리즘을 개발하여 어휘를 구성한다. FineWeb 및 다양한 도메인에서 어휘 크기가 10 K에서 50 K까지일 때 Byte Pair Encoding(BPE) 대비 14 %‑18 % 적은 토큰을 생성하고, 어휘 크기가 64 K일 때는 13.0 % 감소한다. 124 M, 355 M, 1.3 B 파라미터를 갖는 GPT‑2 모델을 각각 5회씩 처음부터 학습시킨 결과, 고정된 검증 손실에 도달하기 위해 필요한 학습 단계가 각각 18.5 %, 17.2 %, 18.5 % 감소했으며, 추론 지연 시간은 각각 13.7 %, 12.7 %, 13.7 % 감소하고, 124 M 모델에서는 처리량이 16 % 증가하였다. 또한 LAMBADA 퍼플렉시티를 11.7 % 낮추고 HellaSwag 정확도를 4.3 % 향상시키는 등 다운스트림 과제에서도 일관된 성능 향상을 보였다. Length‑MAX 토크나이저는 99.62 %의 어휘 커버리지를 달성하고 테스트 셋에서 OOV 비율은 0.12 %에 불과하다. 이러한 결과는 빈도만을 기준으로 어휘를 구성하는 기존 방식보다 평균 토큰 길이를 최적화하는 것이 언어 모델링 효율성을 크게 향상시키며, 다운스트림 성능을 저해하지 않고 오히려 개선할 수 있음을 보여준다. 또한 이 토크나이저는 실제 서비스 환경에 적용 가능하며, 추론 시 임베딩 및 KV‑cache 메모리를 18 % 절감한다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.