시각화된 텍스트 이해, VLM은 순수 텍스트와 동등한가
초록
본 논문은 텍스트가 이미지 내에 시각화된 형태(visualized text)로 제공될 때, 최신 비전‑언어 모델(VLM)이 순수 텍스트 입력과 동일한 수준으로 이해할 수 있는지를 체계적으로 평가한다. 이를 위해 1,500개의 다중 선택형 질문을 포함하는 VISTA‑Bench를 구축하고, 동일한 의미를 가진 순수 텍스트와 시각화 텍스트 두 버전을 비교한다. 20여 종의 최신 VLM을 실험한 결과, 시각화 텍스트에서는 성능 저하가 일관되게 관찰되었으며, 특히 폰트 크기·스타일·프롬프트 설계와 같은 렌더링 요인이 큰 영향을 미친다. 텍스트 인식 능력이 뛰어난 모델일수록 격차가 작았으며, MiMo‑VL‑7B‑RL이 상대적으로 강인한 모습을 보였다. 연구는 VLM이 텍스트를 픽셀로 처리하는 현재 한계와, 보다 통합된 언어‑시각 표현 학습의 필요성을 강조한다.
상세 분석
VISTA‑Bench는 기존 벤치마크가 텍스트를 토큰 형태로만 제공하는 한계를 넘어, 텍스트가 이미지에 직접 렌더링된 상황을 재현한다는 점에서 혁신적이다. 논문은 먼저 두 가지 입력 형태(순수 텍스트 vs. 시각화 텍스트)를 동일한 질문에 대해 쌍으로 구성하고, 이미지 인코더를 통해 모두 처리하도록 설계하였다. 이때 시각화 텍스트는 Arial 16pt, 가로 800픽셀 고정 폭 등 엄격히 통제된 렌더링 파라미터를 사용했으며, 폰트 크기·스타일·프롬프트 변형을 별도 실험으로 추가 분석하였다.
실험 결과는 세 가지 주요 인사이트를 제공한다. 첫째, 대부분의 VLM이 순수 텍스트에서는 높은 정확도를 보이지만, 동일한 의미를 픽셀로 변환했을 때 성능이 현저히 떨어진다. 특히 MMLU와 같은 순수 언어 이해 벤치마크에서는 평균 710%p의 정확도 감소가 관찰되었으며, 멀티모달 베치마크에서는 이미지 정보가 일부 보완 역할을 해 감소폭이 다소 작았다. 둘째, 시각화 텍스트 처리 성능은 렌더링 품질에 크게 의존한다. 폰트 크기가 9pt와 같이 너무 작으면 가독성이 떨어져 OCR 단계에서 오류가 누적되고, 64pt처럼 과도하게 크게 하면 라인 래핑으로 문맥 손실이 발생한다. 최적은 3248pt 범위이며, 손글씨 스타일(Brush Script) 같은 비표준 폰트는 모든 모델에서 정확도를 35%p 정도 추가 감소시킨다. 셋째, 모델별 텍스트 인식 능력이 격차의 주요 원인임을 확인했다. Qwen3‑VL‑8B‑Instruct는 DocVQA와 OCR‑Bench에서 각각 96.1점·896점을 기록하며, InternVL‑3.5‑8B보다 OCR 성능이 45%p 높다. 이 차이는 시각화 텍스트 질문에서의 정확도 차이로 직접 연결된다.
또한, 프롬프트 설계가 모델에 따라 민감하게 작용한다는 부수적 발견도 있다. 중간 길이의 설명형 프롬프트는 성능을 약간 회복시키는 반면, 매우 짧은 프롬프트나 체인‑오브‑생각(Chain‑of‑Thought)과 같은 구조화된 프롬프트는 특히 InternVL‑3.5‑8B에서 오히려 오류를 유발한다. 이는 VLM이 텍스트를 픽셀로 인식한 뒤, 언어 모델 부분에 전달되는 시퀀스가 프롬프트 길이와 형식에 따라 크게 변동함을 시사한다.
VISTA‑Bench 구축 과정에서도 흥미로운 기술적 선택이 돋보인다. 데이터 수집 단계에서 기존 멀티모달·언어 벤치마크를 계층적으로 추출하고, LaTeX 기반 렌더링 파이프라인을 도입해 수식·코드까지 정확히 시각화했다. 렌더링 품질 검증에는 대형 VLM(Qwen3‑VL‑32B)을 필터 심사자로 활용해 자동화된 품질 점검과 인간 검수를 병행함으로써, 최종 1,500개의 고품질 샘플을 확보했다.
전체적으로 이 연구는 VLM이 “텍스트를 픽셀로” 처리하는 현재 한계를 정량화하고, 텍스트 인식·렌더링·프롬프트 설계라는 세 축에서 개선 방안을 제시한다. 향후 연구는 OCR‑전용 모듈과 언어 모델의 통합 학습, 혹은 텍스트‑픽셀 간의 교차‑어텐션 메커니즘을 강화함으로써, 텍스트와 이미지 사이의 모달리티 격차를 최소화하는 방향으로 나아가야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기