비정형 토큰도 문제없다 언어 모델의 토크나이저 독립성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존에 고정된 서브워드 토크나이저에 의존한다고 여겨졌던 대형 언어 모델(LM)이, 훈련 시 보지 못한 비정형(non‑canonical) 토크나이즈 입력에도 놀라울 정도로 견고함을 보인다는 점을 실험적으로 입증한다. 특히 instruction‑tuned 모델은 무작위 토크나이즈와 문자‑레벨 토크나이즈에서도 원래 성능의 90% 이상을 유지하며, 특정 작업에서는 비정형 토크나이즈가 성능을 크게 향상시킬 수 있음을 보여준다. 이러한 견고성은 사후 학습 단계인 instruction‑tuning 과정에서 형성된다는 분석도 제공한다.

상세 분석

본 연구는 현대 LLM이 사용하는 BPE 기반 토크나이저가 결정론적이라도 동일한 문자열을 여러 토큰 시퀀스로 표현할 수 있다는 사실에 주목한다. 저자들은 두 가지 비정형 토크나이즈 방식을 정의하였다. 첫 번째는 “랜덤 토크나이즈”로, 기존 토큰을 허용된 쌍으로 재귀적으로 분할해 무작위로 선택한다. 두 번째는 “문자‑레벨 토크나이즈”로, 문자열을 완전한 문자 단위로 분해한다. 이 두 방식을 적용해 20개의 벤치마크(다중선택, 단답형, 수학, 코딩 등)에서 세 가지 대표 모델(LLAMA‑3‑8B‑INSTRUCT, OLMO‑2‑7B‑INSTRUCT, QWEN‑2.5‑7B‑INSTRUCT)의 성능 변화를 측정하였다.

핵심 결과는 다음과 같다. (1) 랜덤 토크나이즈에서도 QWEN‑2.5‑7B‑INSTRUCT는 원래 성능의 93.4%를, 문자‑레벨 토크나이즈에서는 90.8%를 유지한다. LLAMA‑3‑8B‑INSTRUCT와 OLMO‑2‑7B‑INSTRUCT도 각각 87.7%/73.1%와 79.4%/62.0% 정도의 유지율을 보이며, 모델 규모가 클수록 비정형 토크나이즈에 대한 내성이 높아짐을 확인한다. (2) 토크나이즈의 “세분화 정도”(canonical 대비 토큰 수 비율)가 클수록 성능 저하가 크게 나타났으며, 이는 Kendall’s τ 통계에서 p=0.003으로 유의하게 나타났다. 즉, 지나치게 세분화된 토큰화는 모델의 컨텍스트 이해를 방해한다.

흥미로운 점은 비정형 토크나이즈가 오히려 성능을 향상시킬 수 있다는 것이다. 저자들은 문자‑레벨 토크나이즈가 문자 빈도 카운팅, 약어 생성, 코드 설명 등 정형화된 서브워드가 놓치는 미세한 orthographic 정보를 포착하게 하여 각각 +6.9%, +7.7%, +14.3%의 성능 향상을 보였다. 또한, 큰 숫자 연산에서는 기존 LLM이 왼쪽부터 3자리씩 그룹화하는 토크나이저를 사용해 숫자 간 경계 인식을 방해받는 반면, 오른쪽부터 3자리씩 그룹화하는 “right‑aligned digit grouping”을 적용하면 정확도가 33.7%까지 상승한다. 이러한 결과는 토크나이저가 훈련 시 최적이 아니더라도, 추론 단계에서 작업 특성에 맞는 토크나이즈를 선택함으로써 모델 성능을 크게 끌어올릴 수 있음을 시사한다.

내성의 원천을 탐구하기 위해, 저자들은 사전학습 단계와 instruction‑tuning 단계의 모델을 비교하였다. 사전학습만 된 베이스 모델은 비정형 토크나이즈된 입력을 받으면 “오타”로 인식하고 이를 그대로 모방하려다 의미 없는 출력을 생성한다. 반면, instruction‑tuned 모델은 입력과 출력이 명확히 구분된 대화 형식(SFT)으로 학습되면서, 입력에 포함된 비정형 토큰을 “오타”로 해석하되, 답변 단계에서는 이러한 오타를 무시하고 유창한 문장을 생성한다. 즉, SFT 과정에서 “질문‑답변” 구조가 모델에게 토큰 형태와 의미를 분리하도록 학습시킨 것이 비정형 토크나이즈에 대한 견고성을 부여한다는 결론에 도달한다.

전체적으로 본 논문은 (1) 대형 LLM이 토크나이저에 크게 의존하지 않으며, (2) 비정형 토크나이즈가 특정 작업에서 성능을 향상시킬 수 있고, (3) 이러한 내성은 instruction‑tuning 단계에서 형성된다는 세 가지 주요 통찰을 제공한다. 이는 토크나이저를 고정된 전처리 단계가 아니라, 추론 시 동적으로 조정 가능한 “컨트롤 파라미터”로 재해석하게 하며, 향후 토크나이즈 자동 최적화, 작업 맞춤형 토크나이즈 설계, 그리고 토크나이저와 모델을 분리한 새로운 학습 패러다임을 탐구하는 연구 방향을 열어준다.

비정형 토큰도 문제없다 언어 모델의 토크나이저 독립성

초록

상세 분석

댓글 및 학술 토론

의견 남기기