비디오 검색을 위한 추론 기반 재정렬 모델 RANKVIDEO

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RANKVIDEO는 텍스트‑비디오 검색에서 1차 후보를 재정렬하기 위해 영상 자체를 입력으로 하는 대규모 추론 모델을 활용한다. 영상‑텍스트 쌍에 대한 추론형 판단을 학습하기 위해 두 단계 커리큘럼(감지 기반 지도학습 → 점별·쌍별·교사 증류 손실 결합)과, 시각·음성·OCR·메타데이터를 이용해 고난이도 질의를 합성하는 파이프라인을 제안한다. MultiVENT 2.0 벤치마크에서 nDCG@10을 평균 31 % 향상시키며, 기존 텍스트‑전용 및 비전‑언어 재정렬기보다 효율적으로 동작한다.

상세 분석

RANKVIDEO는 기존 텍스트‑중심 재정렬 방식이 영상의 시각·청각 정보를 충분히 활용하지 못한다는 한계를 인식하고, “비디오‑네이티브” 추론 모델을 설계하였다. 핵심 아이디어는 영상 자체를 입력으로 받아 질의‑영상 쌍에 대해 “yes/no” 형태의 이진 판단을 내리게 하고, 그 판단 로그잇 차이를 스칼라 관련성 점수로 활용하는 것이다. 이를 위해 두 단계 학습 전략을 채택한다. 첫 번째 단계인 Perception‑Grounded Supervised Fine‑Tuning(SFT)에서는 대규모 비디오‑캡션 생성 모델(Qwen‑3‑Omni‑30B‑A3B‑INSTRUCT)으로부터 얻은 교사 캡션을 정답으로 사용해, 영상에서 객체·동작·맥락을 정확히 인식하도록 모델을 사전 학습한다. 이 단계는 영상 이해 능력을 강화하고, 이후 순위 학습에서 과도한 잡음에 민감해지는 것을 방지한다. 두 번째 단계에서는 점별(pointwise) 손실, 쌍별(pairwise) 손실, 그리고 교사 모델(Reason‑Rank‑32B)로부터 얻은 확률(distillation) 손실을 가중합한 복합 목표를 최적화한다. 점별 손실은 이진 라벨을 직접 예측하도록 하여 스코어의 절대적 캘리브레이션을 돕고, 쌍별 손실은 softmax‑형식으로 같은 질의 내에서 정답 영상을 최상위에 올리도록 압력을 가한다. 교사 증류는 단순 0/1 라벨이 아닌, 교사 모델이 출력한 “yes”와 “no” 로그잇 차이를 온도 스케일링한 확률을 목표로 함으로써, 모델이 자신감(confidence)을 정량화하고 서로 다른 질의 간 스코어를 비교 가능하게 만든다. 하드 네거티브 마이닝은 첫 단계 후보군에서 교사의 판단 마진을 기준으로 “신뢰된 네거티브”, “의심되는 포지티브”, “하드 네거티브”로 구분하고, 특히 마진이 작아 혼동이 큰 하드 네거티브를 집중적으로 학습에 활용한다. 데이터 측면에서는 MultiVENT 2.0 비디오를 대상으로 자동 캡션(Qwen‑3‑Omni‑30B‑A3B‑INSTRUCT), 음성 전사(Whisper‑Large‑V2), OCR, 메타데이터를 추출하고, 텍스트 추론 모델(Qwen‑3‑32B)으로부터 다양한 질의 변형(캡션만, 오디오만, OCR만, 메타데이터만, 전부)을 생성한다. 이후 첫 단계 후보 점수와 교사 모델 판단을 통해 질의‑영상 쌍을 필터링해 35,684개의 고품질 학습 샘플을 확보한다. 실험에서는 OMNI‑EMBED를 비롯한 네 가지 최신 1차 검색기와 결합했을 때, RANKVIDEO가 nDCG@10, R@10 등 모든 평가 지표에서 평균 31 % 이상의 개선을 보였으며, 텍스트‑전용 Reason‑Rank와 비전‑언어 기반 QVL‑I, QVL‑Thinking보다 추론 비용이 적음에도 성능이 앞섰다. 특히 모델은 질의 난이도에 따라 추론 깊이를 동적으로 조절해, 쉬운 질의는 얕은 추론으로 빠르게 처리하고, 복잡한 질의에만 깊은 추론을 수행함으로써 효율성을 높였다. 제한점으로는 합성 질의에 의존하는 데이터 생성 과정이 실제 사용자 질의와의 도메인 차이를 남길 수 있고, 교사 모델 자체가 대규모 LLM 기반이므로 학습 비용이 여전히 높다는 점을 들 수 있다. 전반적으로 RANKVIDEO는 비디오 검색 파이프라인에 추론 기반 재정렬을 성공적으로 도입함으로써, 멀티모달 이해와 효율적 순위 학습을 동시에 달성한 의미 있는 진전이다.

비디오 검색을 위한 추론 기반 재정렬 모델 RANKVIDEO

초록

상세 분석

댓글 및 학술 토론

의견 남기기