시각·언어 추론을 위한 시각 주의 원칙 기반 다중 경로 사고

시각·언어 추론을 위한 시각 주의 원칙 기반 다중 경로 사고
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각‑언어 모델(VLM)의 추론 시 시각 정보를 한 번만 제공하는 한계를 극복하고자, 고수준 추론 원칙에 시각적 saliency를 결합한 Saliency‑Aware Principle (SAP) 선택 방식을 제안한다. SAP는 원칙‑레벨에서 다중 경로를 동시에 탐색해 시각 근거를 반복적으로 재검토하도록 유도하고, 진화적 선택과 노이즈에 강인한 상대적 피드백을 활용한다. 모델‑agnostic하고 추가 학습 없이도 토큰 예산 내에서 객체 환각을 크게 감소시키며, Long‑CoT 방식보다 추론 지연을 낮춘다.

상세 분석

본 연구는 VLM이 텍스트 중심의 긴 추론 과정에서 시각 근거를 점차 소멸시키는 “텍스트‑지배” 현상을 정확히 짚어낸다. 기존 LLM에서 효과적인 inference‑time scaling은 토큰을 추가 생성하거나 다중 체인을 탐색함으로써 이루어졌지만, VLM에서는 시각 입력이 초기 한 번만 인코딩되고 이후 교차‑모달 상호작용이 제한적이다. 따라서 초기 시각 요약 오류가 누적돼 객체 환각(object hallucination)과 편향된 추론을 초래한다.

SAP는 이러한 문제를 두 차원에서 해결한다. 첫째, 고수준 추론 원칙(principle) 을 정의하여 “시각 증거를 언제 재검토할지”, “가설을 어떻게 검증할지” 등을 텍스트로 명시한다. 원칙은 구체적인 토큰 시퀀스가 아니라 행동 지침이므로 동일 원칙 아래에서도 모델은 다양한 토큰 경로를 생성한다. 이는 원칙 공간 X가 토큰 공간보다 훨씬 압축되고 의미론적으로 연속적이어서 탐색 효율을 크게 높인다.

둘째, 시각 saliency 를 외부 모듈 GROUND 로부터 추출해 원칙 선택 과정의 평가 기준으로 사용한다. saliency는 이미지 내 핵심 객체·영역을 강조하므로, 원칙이 시각 근거를 충분히 활용했는지 여부를 정량화할 수 있다. 이때 피드백은 “A가 B보다 좋다”와 같은 순위 형태이며, 절대 점수는 필요 없다.

탐색 알고리즘은 진화적(population‑based) 선택을 채택한다. 초기에는 μ+λ 개의 원칙을 무작위 샘플링하고, 각 원칙당 τ 개의 추론 경로를 생성한다. 각 경로는 생각(r)과 요약(s) 형태로 출력되며, 이를 바탕으로 DiscreteEval 로 노이즈가 섞인 상대적 평가를 수행한다. 평가 결과는 내부 스코어로 변환돼 상위 μ개의 엘리트 원칙을 보존하고, 나머지는 엘리트로부터 변이·교배해 새로운 λ 개를 생성한다. 이 과정을 여러 세대 반복함으로써 시각‑주도 원칙이 점진적으로 강화된다.

실험에서는 Qwen‑3‑VL‑8B‑Thinking 모델에 SAP를 적용해 COCO‑VQA, OCR‑VQA, POPE‑Recall 등 시각‑언어 벤치마크에서 객체 환각 감소율이 30% 이상이며, 토큰 예산을 동일하게 유지하면서 Long‑CoT 대비 평균 응답 지연이 15%~20% 감소함을 보고한다. 또한, 다중 경로가 병렬 실행 가능해 GPU 활용 효율이 향상된다.

한계점으로는 saliency 추출이 사전 훈련된 객체 탐지기에 의존하므로, 복잡한 장면이나 추상적 개념에 대한 시각 근거를 놓칠 수 있다. 또한 원칙 설계가 현재는 프롬프트 기반 자동 샘플링에 의존하므로, 도메인‑특화 원칙을 명시적으로 정의하려면 추가 연구가 필요하다.

전반적으로 SAP는 모델‑비종속, 데이터‑프리 방식으로 VLM의 추론 시 시각 근거 활용을 지속적으로 보장하고, 다중 경로 탐색을 통해 inference‑time scaling을 실현한다는 점에서 향후 멀티모달 AI 시스템 설계에 중요한 전환점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기