시간 토큰화 전략이 이벤트 시퀀스 모델링에 미치는 영향

시간 토큰화 전략이 이벤트 시퀀스 모델링에 미치는 영향
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

연속 시간을 텍스트 토큰으로 변환하는 방법이 LLM 기반 이벤트 시퀀스 예측에 큰 영향을 미친다. 논문은 숫자 문자열, 바이트 레벨, 캘린더 토큰, 균등 구간화, 잔차 스칼라 양자화 등 5가지 토큰화 방식을 실제 데이터셋에 적용해 비교하고, 데이터의 시간 분포와 토큰화 방식의 정합성이 예측 정확도와 효율성에 결정적임을 확인한다.

상세 분석

본 연구는 LLM을 이용한 이벤트 시퀀스 모델링에서 연속 시간 정보를 어떻게 토큰화하느냐가 핵심 설계 변수임을 체계적으로 입증한다. 먼저 저자는 시간 토큰화의 필요성을 기존 TPP(Temporal Point Process)와 LLM 통합 맥락에서 설명하고, 연속 시간값을 문자열로 그대로 넣는 ‘Numeric String’, 32비트 부동소수점을 4바이트로 분해하는 ‘Byte’, 인간이 이해하기 쉬운 연도·월·일·시·분·초 등을 토큰화하는 ‘Calendar’, 선형·로그 변환 후 균등 구간을 할당하는 ‘Scale Bin’, 그리고 다단계 K‑Means 기반 잔차 양자화를 이용하는 ‘Residual Scalar Quantization(RSQ)’이라는 다섯 가지 구체적 전략을 정의한다.

각 전략은 토큰 수, 정밀도, 의미적 해석 가능성 측면에서 차이를 보인다. Numeric String은 별도 어휘 확장이 필요 없지만 소수점 이하 자리수에 따라 토큰이 과다하게 분할돼 효율성이 낮다. Byte는 고정 4토큰으로 32비트 정밀도를 유지해 가장 정확하지만 어휘에 256개의 특수 토큰을 추가해야 하며, 토큰당 정보량이 낮아 모델이 숫자 의미를 학습하기 어려울 수 있다. Calendar는 인간 친화적 의미를 제공해 혼합형 데이터에 강건하지만, 시간 단위 선택(일 vs 초)에 따라 토큰 수가 크게 변한다. Scale Bin은 데이터 분포를 선형 혹은 로그 스케일로 변환해 균등 구간을 만들지만, 구간 수(K)를 잘못 설정하면 과도한 양자화 오차가 발생한다. RSQ는 다단계 양자화를 통해 높은 정밀도와 토큰 효율성을 동시에 추구하지만, 학습 단계가 복잡하고 코드북 관리 비용이 추가된다.

실험에서는 Llama‑3.2‑1B 모델을 QLoRA로 파인튜닝하고, Stack Overflow, Chicago Crime, NYC Taxi, US Earthquake, Amazon Review 등 서로 다른 시간 분포(로그 정규, 멀티모달, 스파이키 등)를 가진 5개 데이터셋에 적용했다. 결과는 이벤트 타입 예측 정확도는 토큰화 방식에 크게 좌우되지 않지만, 다음 이벤트 시간 예측(RMSE)에서는 뚜렷한 차이가 나타났다. 로그‑스케일 기반 전략(Scale Bin(Log), RSQ(Log))은 로그 정규 및 스파이키 분포에서 최고의 RMSE를 기록했으며, 특히 Stack Overflow과 Amazon Review에서 우수했다. 반면, 혼합형 분포인 NYC Taxi에서는 초 단위 Calendar가 가장 낮은 오차를 보였다. US Earthquake 데이터에서는 Byte가 가장 낮은 RMSE를 달성해, 부동소수점 정밀도가 유리함을 시사한다.

효율성 측면에서는 단일 토큰 로그‑스케일 구간화와 RSQ(L1) 전략이 가장 토큰당 정보량이 높아 전체 토큰 수를 최소화하면서도 경쟁력 있는 RMSE를 제공한다. 다중 토큰 전략(Byte, RSQ(L4))은 높은 정밀도를 제공하지만 토큰 수가 증가해 연산 비용이 상승한다.

결론적으로, 시간 토큰화 선택은 데이터의 통계적 특성에 맞추어야 하며, ‘한 가지가 모두에게 최적’인 방법은 존재하지 않는다. 로그 기반 양자화는 로그‑정규·스파이키 데이터에, 캘린더 기반 토큰은 혼합형 데이터에, 바이트 기반은 고정 정밀도가 요구되는 경우에 적합하다. 또한, 순수 LLM 파인튜닝 접근법은 복잡한 TPP 전용 헤드와 손실 함수를 사용하지 않음에도 불구하고 이벤트 타입 정확도에서는 기존 TPP‑LLM과 동등하거나 우수한 성능을 보이며, 모델 설계와 운영 비용 측면에서 큰 장점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기