디지털 잉크 고정 어휘 토큰화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
ScribeTokens는 펜 움직임을 픽셀 단위의 8방향 스텝과 두 개의 펜 상태 토큰으로 표현해 10개의 고정 어휘만으로 디지털 잉크를 완전하게 토큰화한다. BPE 압축을 적용해 시퀀스 길이를 크게 줄이면서도 OOV 문제를 없애며, 손글씨 인식·생성 모두에서 기존 벡터 방식보다 우수한 성능을 보인다. 특히 자체 지도 학습인 next‑ink‑token 예측을 통해 사전 학습 효과를 극대화한다.
상세 분석
본 논문은 디지털 잉크(스타일러스·터치 입력으로 얻어지는 좌표 흐름)의 표현 방식을 재고함으로써 두 가지 주요 문제를 해결한다. 첫째, 기존 연속 벡터 표현은 좌표를 그대로 사용해 시퀀스가 길어지고, 혼합 가우시안 네트워크 기반 생성 모델은 학습 불안정성(모드 붕괴, 로그우도 음수) 등을 야기한다. 둘째, 기존 토큰화 방식은 대규모 어휘(캔버스 해상도에 비례)와 OOV(Out‑of‑Vocabulary) 문제, 그리고 구문 오류(잘못된 토큰 순서가 유효한 좌표로 디코딩되지 않음)라는 한계를 가진다.
ScribeTokens는 이러한 한계를 ‘픽셀 단위 단위 스텝’이라는 근본적인 아이디어로 극복한다. 구체적으로, 입력 좌표를 일정 간격(δ)으로 양자화한 뒤, 인접하지 않은 두 점 사이를 Bresenham 직선 알고리즘으로 rasterize한다. 그 결과 얻어지는 인접 픽셀 간 이동을 Freeman 체인 코드(8방향)로 인코딩하고, 펜이 화면에 닿는 순간과 떠나는 순간을 각각
댓글 및 학술 토론
Loading comments...
의견 남기기