시각 토큰이 담을 수 있는 정보량 한계와 스케일링 법칙

시각 토큰이 담을 수 있는 정보량 한계와 스케일링 법칙
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Vision‑Language Model(VLM)에서 이미지가 압축되어 생성되는 연속형 시각 토큰의 표현 용량을 정량적으로 탐구한다. 텍스트를 이미지로 렌더링한 뒤 토큰 수를 고정하고 문자 수를 단계적으로 증가시켜 실험한 결과, 안정 단계, 불안정 단계, 붕괴 단계라는 세 가지 전이 구간을 보이며, 이를 설명하는 두 가지 메커니즘(패치 정렬 민감도와 정보 용량 한계)을 제시한다. 또한 평균 토큰 부하와 시각 밀도를 결합한 확률적 스케일링 법칙을 도출해 다양한 최신 VLM에 적용, 보편성을 검증하였다.

상세 분석

이 연구는 시각 토큰을 ‘손실이 있는 채널’로 모델링하고, 해당 채널의 최대 정보 전송량을 실험적으로 측정하려는 시도이다. 핵심 실험 설계는 두 축을 고정한다는 점이다. 첫 번째 축은 Vision Encoder가 생성할 수 있는 토큰 수(즉, 입력 해상도와 패치 크기에 의해 결정되는 토큰 예산)이며, 두 번째 축은 이미지에 포함된 문자 수(공백·구두점 포함)이다. 텍스트를 이미지로 변환할 때는 폰트 크기·줄 간격·문자 간격을 조절해 다양한 시각 밀도를 구현하고, 블록‑와이즈 셔플링을 적용해 언어 모델이 텍스트의 통계적 패턴을 이용해 추론하는 것을 방지한다. 이렇게 하면 모델의 성능 저하가 순수히 시각 인식 능력에 기인함을 보장한다.

실험 결과는 ‘ED(편집 거리)’와 텍스트 길이의 관계가 선형이 아니라 세 구간으로 구분되는 ‘위상 전이’를 나타낸다. 첫 번째 ‘Stable Phase’에서는 토큰당 부하가 충분히 낮아 거의 오류가 없으며, 텍스트 길이가 증가해도 ED가 0에 가깝다. 두 번째 ‘Instability Phase’에서는 평균 ED가 상승하지만 동일한 텍스트 길이에 대해 결과가 크게 변동한다. 이는 Vision Transformer(ViT)의 고정 패치 분할이 이미지 내 텍스트 블록이 패치 경계와 어떻게 겹치는가에 따라 정보 손실이 달라지기 때문이다. 저자들은 픽셀‑시프트 실험을 통해 이미지 전체를 16픽셀(패치 크기) 단위로 미세 이동시켰을 때, 일부 이동에서는 ED가 크게 감소함을 확인했다. 이는 ‘불안정 단계’가 주로 공간 정렬 민감도에 기인함을 의미한다.

세 번째 ‘Collapse Phase’에서는 토큰 예산을 초과한 정보량이 입력되면 ED가 급격히 0.6 이상으로 상승한다. 이 구간에서는 픽셀‑시프트를 적용해도 성능 회복이 불가능하며, 이는 Vision Encoder 자체가 해당 정보량을 표현할 수 없는 ‘용량 한계’를 초과했기 때문이다. 저자들은 이 경계점을 ‘Hard Wall’이라 명명하고, 해상도가 높을수록 Hard Wall이 오른쪽(더 많은 문자)으로 이동한다는 점을 실증한다.

이러한 현상을 정량화하기 위해 평균 토큰 부하(L̄)와 시각 밀도(D)라는 두 변수를 도입하고, 성공 확률을 베르누이 분포로 가정한 뒤 로짓 변환을 적용한 확률적 스케일링 법칙을 제시한다. 구체적으로
 logit P(success) = α · (L̄ · D) + β
와 같은 형태이며, α와 β는 실험 데이터에 대해 회귀 분석을 통해 추정된다. 이 모델은 다양한 VLM(DeepSeek‑OCR, InternVL3.5‑8B, Qwen2.5‑VL‑8B)에서 동일한 파라미터가 적용돼도 높은 예측 정확도를 보이며, 토큰 예산과 이미지 밀도 사이의 트레이드‑오프를 사전에 예측할 수 있게 한다.

결과적으로, 시각 토큰은 단순히 ‘이미지를 압축하는’ 역할을 넘어, 정해진 토큰 수 내에서 담을 수 있는 정보량에 명확한 상한이 존재함을 보여준다. 이는 장문 문서 처리, OCR‑free 문서 이해, 멀티모달 장기 기억 등에서 토큰 예산을 설계할 때 중요한 설계 지표가 된다. 또한, 패치 정렬 민감도를 완화하기 위한 비정형 패치, 겹침 패치, 혹은 동적 토큰 할당과 같은 새로운 인코더 설계 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기