비전‑텍스트 압축으로 장기 컨텍스트를 이해할 수 있을까 VTCBench 분석
초록
본 논문은 텍스트를 2차원 이미지로 압축하는 Vision‑Text Compression(VTC) 기법이 Vision‑Language Model(VLM)의 장기 컨텍스트 이해에 미치는 영향을 최초로 체계적으로 평가한다. VTC‑Retrieval, VTC‑Reasoning, VTC‑Memory라는 세 가지 벤치마크와 실세계 시나리오를 포함한 VTCBench‑Wild를 제안하고, 최신 오픈소스·상용 VLM들을 실험한다. 결과는 OCR·디코딩 능력은 우수하지만, VTC 처리된 고밀도 정보에 대해 장기 연관성·의존성을 파악하는 능력은 현저히 낮음을 보여준다.
상세 분석
본 연구는 장기 컨텍스트 확장이 LLM에 가져오는 연산·메모리 비용을 완화하기 위한 대안으로 Vision‑Text Compression(VTC)을 채택한 점에서 의미가 크다. VTC는 텍스트를 이미지 형태로 변환해 토큰 수를 3배에서 20배까지 압축함으로써, 기존 토크나이저 기반 모델이 다루기 어려운 초장문을 처리 가능하게 만든다. 그러나 이러한 고밀도 시각 정보가 VLM의 핵심 능력인 “텍스트 간 장기 의존성 파악”과 어떻게 상호작용하는지는 미지였다. 논문은 이를 검증하기 위해 세 가지 평가 축을 설계했다. 첫째, VTC‑Retrieval은 모델이 이미지에 포함된 다수의 문서 조각을 정확히 찾아내고, 필요한 정보를 집계할 수 있는지를 측정한다. 여기서는 문서 내 키워드가 이미지 내 위치와 매핑되는지, 그리고 모델이 복수의 OCR 결과를 통합해 정답을 도출하는지를 확인한다. 둘째, VTC‑Reasoning은 텍스트 간 의미적 연관성을 파악하도록 요구한다. 질문은 원문과 최소한의 어휘적 겹침만을 갖고, 모델은 이미지에 숨겨진 사실들을 추론해 연결 고리를 찾아야 한다. 이는 단순 OCR 디코딩을 넘어, 시각적 레이아웃과 텍스트 흐름을 이해하는 능력을 시험한다. 셋째, VTC‑Memory는 장기 대화 메모리 상황을 시뮬레이션한다. 모델은 과거 대화 내용이 압축된 이미지 형태로 제공될 때, 현재 질문에 대해 일관된 답변을 제공할 수 있는지를 평가한다. 특히, 대화 흐름의 전후 관계와 화자 구분을 유지해야 한다는 점에서 난이도가 높다. 실험에서는 DeepSeek‑OCR, Glyph 등 기존 VTC 프레임워크와 최신 오픈소스 VLM(예: LLaVA, MiniGPT‑4) 및 상용 모델(예: GPT‑4V)들을 비교했다. 결과는 대부분의 VLM이 OCR 정확도는 90% 이상으로 높지만, VTC‑Retrieval에서 60% 이하, VTC‑Reasoning에서 45% 이하, VTC‑Memory에서 30% 이하의 성능을 보였음을 보여준다. 이는 모델이 이미지 내 텍스트를 읽는 데는 능숙하지만, 이미지 레이아웃을 통한 장기 논리적 연결을 학습하지 못했음을 의미한다. 또한, VTCBench‑Wild에서는 다양한 폰트, 배경, 왜곡 등을 포함한 현실적인 입력에 대해 성능이 더욱 급격히 하락했다. 이러한 현상은 현재 VLM이 시각적 구조 정보를 충분히 활용하지 못하고, 텍스트 토큰화된 형태와 달리 “시각적 흐름”을 파악하는 메커니즘이 부족함을 시사한다. 논문은 향후 연구 방향으로 (1) VTC 전용 프리트레인 데이터셋 구축, (2) 이미지‑텍스트 간 교차 어텐션 강화, (3) 레이아웃 인식과 텍스트 의미 연결을 동시에 학습하는 멀티모달 사전학습 전략을 제안한다. 전체적으로 VTC는 토큰 압축이라는 실용적 이점을 제공하지만, 현재 VLM의 장기 컨텍스트 이해 능력과는 아직 큰 격차가 있음을 명확히 밝혀냈다.