시각 코치: 시공간 근거 강화와 시각 프롬프트를 활용한 비디오 추론
초록
VisionCoach는 훈련 시 시각 프롬프트를 선택적으로 적용해 비디오 질문 응답 모델의 시공간 근거 추적을 강화하고, 자기 증류를 통해 프롬프트 없이도 정확한 근거 기반 추론을 수행하도록 만든 RL 기반 프레임워크이다.
상세 분석
VisionCoach는 비디오 QA에서 “어디서, 언제”라는 근거를 정확히 찾아내는 것이 핵심이라는 점을 출발점으로 삼는다. 기존 텍스트 중심 모델은 언어 편향에 의해 허위 근거를 생성하고, 도구 호출 방식은 추론 단계에서 반복적인 영상 클리핑·줌인 등 외부 모듈을 호출해 연산 비용을 크게 늘린다. 이러한 한계를 극복하기 위해 저자들은 두 가지 혁신적인 메커니즘을 도입한다. 첫째, Visual Prompt Selector(VP‑SELECTOR)는 입력 비디오와 질문을 jointly encoding한 뒤, 사전 구축된 프롬프트 후보(다크닝, 레드 서클, 박스 오버레이 등) 중 가장 효과적인 유형을 예측한다. 이 과정은 proxy reasoner를 이용해 라벨링된 프롬프트 데이터셋을 만든 뒤, supervised fine‑tuning으로 학습한다. 둘째, Spatio‑Temporal Reasoner(ST‑REASONER)는 강화학습(GSPO)으로 정책 πθ를 최적화하면서, 선택된 프롬프트가 적용된 “프롬프트‑입력”을 사용해 hard sample에 대해 추가적인 시각적 힌트를 제공한다. 여기서 핵심은 객체 정체성 일관성(object‑identity consistency)과 다중 박스 IoU 평균을 포함한 객체‑aware grounding reward이다. 이 보상은 (1) 동일 객체가 시간 축을 따라 동일 ID를 유지하도록 유도하고, (2) 여러 예측 박스가 실제 박스와 겹치는 정도를 정량화해 공간 정확성을 높인다.
훈련 과정에서 hard sample을 자동으로 식별하고, VP‑SELECTOR가 제공하는 프롬프트로 해당 샘플을 “코치”한다. 이후 정책은 강화학습을 통해 보상을 최대화하고, 프롬프트가 없는 원본 입력에 대해서도 동일한 행동을 모방하도록 자기 증류(self‑distillation)를 수행한다. 즉, 프롬프트가 적용된 입력을 teacher, 프롬프트가 없는 입력을 student로 두고 KL‑divergence 기반 손실을 최소화한다. 결과적으로 모델은 프롬프트 없이도 내부적으로 시각적 주의를 재구성해 근거 기반 추론을 수행한다.
실험에서는 V‑STAR, VideoMME, World‑Sense, VideoMMMU, PerceptionTest, Charades‑STA 등 6개 데이터셋에 걸쳐 SOTA 성능을 달성했다. 특히 V‑STAR에서 mAM과 mLGM을 각각 +15.0%·+25.1% 향상시켰으며, GPT‑4o와 Qwen2.5‑VL‑7B를 크게 앞섰다. Ablation 연구는 VP‑SELECTOR의 존재가 없을 경우 grounding reward만 사용했을 때보다 정확도가 현저히 떨어짐을 보여준다. 또한, 프롬프트 종류별 효과 분석에서 “다크닝”과 “레드 서클”이 가장 높은 정답률을 기록했으며, oracle‑level 프롬프트 선택이 최상의 성능을 만든다는 점을 확인했다.
이 논문의 주요 기여는 (1) 훈련 시점에 시각 프롬프트를 활용해 grounding을 직접 강화하고, inference 시에는 단일 forward‑pass만으로 동작하도록 만든 점, (2) 객체 정체성 및 다중 박스 IoU를 포함한 새로운 grounding reward 설계, (3) 프롬프트 선택을 자동화한 VP‑SELECTOR와 그 데이터 구축 파이프라인, (4) 자기 증류를 통한 프롬프트‑free 모델 전이이다. 이러한 설계는 비디오 멀티모달 모델이 “보는” 능력을 학습 단계에서 내재화하도록 하여, 추론 단계의 연산 비용을 최소화하면서도 높은 신뢰도의 시공간 근거를 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기