시각 토큰 특화와 과제 복잡성: VLLM의 중복성 해소 방안
초록
본 논문은 최신 비전 대형 언어 모델(VLLM)에서 시각 토큰이 과도하게 중복되어 세밀한 시각 정보가 손실되는 현상을 규명한다. 합성 데이터셋과 새로운 시각‑중복 측정 지표를 도입해 토큰 압축 정도를 정량화하고, 과제 복잡도(객체 수, 형태·색상 다양성 등)와의 상관관계를 분석한다. 또한 복잡한 시각 과제에 대한 파인튜닝이 토큰 압축을 완화하고 시각 토큰의 특화 정도를 높이며, 특히 객체‑그라운딩 과제가 텍스트 토큰보다 시각 토큰에 더 큰 변화를 일으킨다는 결론을 제시한다.
상세 분석
이 연구는 시각‑언어 모델이 이미지 정보를 토큰화할 때 발생하는 “시각 중복” 현상을 정량적으로 측정하고, 그 원인이 과제 복잡도와 어떻게 연결되는지를 체계적으로 탐구한다. 먼저 저자들은 토큰 노름 기반 지표(Gini 계수, 정규화 엔트로피, 변동계수)와 토큰 랭크 기반 지표(Stable Rank, Participation Ratio, Exponential Entropy)를 제안한다. 이들 지표는 각각 토큰 임베딩의 크기 불균형과 토큰 행렬의 유효 차원을 평가함으로써, 시각 정보가 얼마나 고르게 퍼져 있는지를 파악한다.
합성 데이터셋은 2D 도형을 백그라운드에 배치하고, 객체 수, 형태·색상·크기 다양성 등 여러 복잡도 축을 조절해 만든다. 이를 통해 복잡도가 낮은 경우와 높은 경우에 대한 시각 중복 지표의 변화를 직접 비교할 수 있다. 실험 결과, 복잡도가 낮은 이미지에서는 Gini 계수가 낮고 Stable Rank가 낮아 토큰당 정보가 집중되는 반면, 복잡도가 높은 이미지에서는 Gini가 상승하고 Stable Rank가 증가해 토큰 전반에 걸쳐 정보가 고르게 분산되는 현상이 관찰된다.
또한, 저자들은 선형 프로빙(MLP Probe)을 이용해 각 토큰이 특정 시각 특성(가장 큰 객체, 가장 흔한 색상 등)을 얼마나 잘 예측하는지를 측정한다. 결과는 대부분의 토큰이 전역적인 이미지 정보를 담고 있어, 개별 토큰이 특정 객체에 특화되지 않음을 보여준다. 이는 “시각 토큰 특화 부재”가 복잡한 과제(예: 객체 개수 세기, 공간 관계 추론)에서 성능 저하의 직접적인 원인임을 시사한다.
파인튜닝 실험에서는 두 종류의 복잡한 과제(그라운딩 vs. 공간 추론)를 각각 사용해 VLLM을 미세조정한다. 그라운딩 과제에 대한 파인튜닝은 토큰 노름의 불균형을 크게 증가시켜(Gini 상승) 특정 토큰이 특정 객체 정보를 담당하도록 만들었다. 반면, 공간 추론 과제는 토큰 간 정보 분산을 크게 변화시키지 않았으며, 대신 텍스트 토큰의 표현이 크게 변형되는 경향을 보였다. 이는 시각 정보의 압축 정도를 낮추려면 “고복잡도 시각 데이터”가 충분히 제공되어야 하며, 과제 유형에 따라 모델 내부의 변형 위치가 달라진다는 중요한 통찰을 제공한다.
마지막으로 토큰 삭제(ablation) 실험을 통해, 일정 비율 이상의 시각 토큰을 무작위로 제거했을 때 성능 저하가 급격히 나타나는 임계점이 존재함을 확인한다. 이 임계점은 중복 지표와 높은 상관관계를 보였으며, 특히 Stable Rank와 Participation Ratio가 낮을수록 모델이 토큰 손실에 더 취약함을 보여준다.
전체적으로 이 논문은 시각 중복을 단순히 “불필요한 토큰”으로 보는 것이 아니라, 과제 복잡도와 데이터 다양성에 의해 결정되는 동적 현상으로 재해석한다. 제안된 정량적 지표와 합성 벤치마크는 향후 VLLM 설계 시 시각 토큰 특화와 압축 제어를 위한 실용적인 도구가 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기