시각언어 모델 테스트 시 확장성을 위한 인식·추론 분리 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SPARC는 시각 인식과 논리 추론을 별도의 모듈로 분리해 테스트 시 토큰 예산을 동적으로 조절한다. 먼저 저해상도 전체 이미지에서 질문에 관련된 영역을 찾고(Implicit Relevance Detection), 해당 영역을 고해상도로 재처리한 뒤 추론 모듈에 전달한다. 이 구조는 인식 단계와 추론 단계의 독립적인 확장·최적화를 가능하게 하며, 200배 적은 토큰으로도 기존 “thinking with images”보다 높은 정확도를 달성한다.

상세 분석

SPARC는 기존 VLM이 텍스트와 이미지 토큰을 뒤섞어 긴 체인‑오브‑생각(Chain‑of‑Thought, CoT)을 생성하는 방식을 근본적으로 재구성한다. 논문은 두 가지 핵심 가정을 제시한다. 첫째, 시각적 인식과 고차원 논리 추론은 인지과학에서 별도의 회로(‘what/where’ 경로와 전전두엽)로 구분된다는 점이다. 둘째, 테스트‑타임 스케일링은 토큰 수를 늘려 성능을 향상시키지만, 인식 단계가 불필요하게 많은 텍스트를 생성하면 오히려 오류 전파가 심화된다는 점이다. 이를 해결하기 위해 SPARC는 “Perception Stage”와 “Reasoning Stage”를 순차적 프롬프트 체인으로 구현한다.

Perception Stage에서는 이미지 전체를 저해상도(예: 256 px)로 입력하고, 질문과 결합한 프롬프트를 통해 ‘Implicit Relevance Detection(IRD)’을 수행한다. 모델은 좌표 텍스트(또는 특수 토큰) 형태로 관심 영역을 반환한다. 이 단계는 텍스트 토큰이 극히 적고, 좌표 예측만으로 이루어지므로 연산 비용이 매우 낮다. 또한, self‑consistency를 적용해 여러 IRD 롤아웃을 수행하고 KV‑cache를 공유함으로써 토큰 증가를 최소화하면서 정확도를 9 %까지 끌어올린다.

다음 Reasoning Stage에서는 IRD에서 얻은 고해상도 크롭을 다시 모델에 입력하고, 질문에 대한 최종 답변을 생성한다. 여기서는 기존 VLM이 사용하던 CoT와 동일한 텍스트 기반 추론을 수행하지만, 이미 시각적 노이즈가 제거된 압축된 컨텍스트만을 사용한다. 따라서 긴 텍스트 체인이 필요 없으며, 모델이 논리적 오류에 빠질 위험이 감소한다.

실험에서는 V* VQA 벤치마크와 OOD(Out‑of‑Distribution) 테스트를 사용해 성능을 검증한다. Qwen3‑VL‑4B에 SPARC를 적용했을 때 V*에서 6.7 %p, OOD에서 4.6 %p 상승했으며, 토큰 사용량은 기존 “thinking with images” 대비 200배 감소했다. 또한, 다양한 해상도와 오버랩 비율을 조절한 실험에서, 256 px 모델이 20 % 정도의 오버랩만 확보해도 512 px 전체 이미지 모델을 능가한다는 효율성을 입증했다.

SPARC의 가장 큰 장점은 모듈별 독립 학습이 가능하다는 점이다. 인식 모듈은 좌표 예측에 특화된 소량 데이터와 짧은 토큰으로 빠르게 파인튜닝할 수 있어, 도메인‑특화 시각 작업(예: 의료 영상, 위성 사진)에서도 전체 VLM을 재학습할 필요가 없다. 반면 추론 모듈은 기존 LLM 사전학습 가중치를 그대로 유지하면서, 새로운 인식 모듈이 제공하는 고품질 크롭을 입력받아 바로 활용한다. 이는 “catastrophic forgetting”을 방지하고, 양쪽 회로를 별도 최적화할 수 있는 유연성을 제공한다.

마지막으로, SPARC는 테스트‑타임 스케일링을 비대칭적으로 할 수 있다. 예를 들어, 배포 환경에서 이미지 품질이 저하되면 인식 단계에 더 많은 연산(고해상도 전처리, 다중 샘플링)을 할당하고, 추론 단계는 그대로 유지해 전체 지연 시간을 최소화한다. 이러한 설계는 실시간 로봇, 모바일 디바이스 등 제한된 연산 자원을 가진 응용 분야에 특히 유리하다.

요약하면, SPARC는 시각‑언어 모델의 인식·추론을 뇌의 구조를 모방해 명확히 분리함으로써, 테스트‑타임에 토큰 예산을 효율적으로 확장하고, 독립적인 최적화와 비대칭 연산 할당을 가능하게 한다. 이는 현재 VLM이 직면한 “긴 체인‑오브‑생각에 의한 오류 전파” 문제를 근본적으로 해결하고, 실용적인 배포 환경에서도 높은 정확도와 낮은 연산 비용을 동시에 달성할 수 있는 새로운 패러다임을 제시한다.

시각언어 모델 테스트 시 확장성을 위한 인식·추론 분리 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기