스크립트 세금 다국어 모델의 토크나이징 효율성 및 지연 격차 측정
초록
본 논문은 동일한 언어 내용을 가진 두 개의 문자 체계(orthography)를 비교해, 토크나이저가 초래하는 ‘스크립트 세금’(tokenization‑driven 비용)을 정량화한다. mBERT와 XLM‑R에서 높은 파편화(높은 fertility)를 보이는 체계는 토큰당 단어 수가 3.4배 증가하고, 추론 속도가 16.5배 느려지며, 문자당 비트(BPC) 비용이 최대 47% 상승한다.
상세 분석
이 연구는 “스크립트 세금”이라는 개념을 정의하고, 토크나이저 파편화가 다국어 언어 모델의 계산·정보 효율성에 미치는 영향을 체계적으로 측정한다. 먼저 동일 의미를 유지하는 문장 쌍을 두 orthography(A, B)로 구성하고, 각 모델(mBERT, XLM‑R)의 토크나이저 τₘ을 적용해 토큰 길이 Lₘ(x)와 단어 수 W(x)를 구한다. 파편화 정도는 fertility = Lₘ/W 로 정의되며, A와 B 사이의 평균 차이 ΔFₘ가 4.38~4.75 토큰/단어(≈3.4배)로 나타난다. 이는 토크나이저가 한 orthography에 대해 거의 문자 수준 분할에 가까워짐을 의미한다.
시퀀스 길이가 제곱에 비례해 연산 비용을 증가시키는 트랜스포머 구조 특성 때문에, 동일 하드웨어에서 B 체계는 초당 문장 처리량이 0.23 → 3.8 sentences/s(≈16.5배)로 급감한다. 이와 별도로, 토큰‑레벨 NLL은 파편화가 심할수록 인위적으로 낮아질 수 있는 “NLL 패러독스”를 피하기 위해 BPC = (NLL·log₂)/문자 수 로 정규화한다. 결과는 mBERT에서 BPC가 8.06→9.65(+19.7%), XLM‑R에서는 12.19→17.94(+47.1%)로 크게 상승한다. 즉, 동일한 의미를 전달하는데 더 많은 비트가 필요함을 보여준다.
또한, orthography 변환 파이프라인의 안정성을 검증하기 위해 라운드‑트립 문자 오류율(CER_rt)을 0.31로 측정하였다. 이는 변환 과정에서 일부 손실이 존재하지만, 주요 차이는 토크나이저 파편화에 기인한다는 근거를 제공한다.
논의에서는 (1) 파편화가 가장 근원적인 원인이며, (2) 토큰‑레벨 손실만 보고하면 실제 효율성 저하를 놓칠 수 있음을 강조한다. 따라서 토크나이저 설계 시 스크립트‑인식(token‑aware) 전략, 어휘 확대, 혹은 스크립트‑균형 사전학습이 필요하다. 한계점으로는 두 개의 orthography과 두 모델에만 적용했으며, 하드웨어·설정에 따라 절대적인 지연 수치는 변동될 수 있다.
전반적으로, 이 논문은 토크나이저가 다국어 NLP에서 구조적 불공평성을 야기한다는 강력한 증거를 제시하고, BPC와 latency 같은 계산‑중심 지표를 함께 보고할 것을 촉구한다.
댓글 및 학술 토론
Loading comments...
의견 남기기