시각 상태 전이를 활용한 일관성 비디오 검색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CAST는 기존 텍스트‑비디오 검색이 무시하는 “상태·정체성 일관성”을 보완하기 위해, 시각 히스토리를 기반으로 상태 변화를 예측하는 경량 어댑터를 제안한다. 이를 통해 요리·조립 등 절차적 영상에서 다음 단계의 적절한 클립을 선택하고, 생성 모델의 후보 영상을 재정렬하는 데도 활용한다.

상세 분석

본 논문은 비디오 검색을 “정적 의미 매칭”에서 “시계열적 상태 전이”로 전환한다는 근본적인 패러다임 변화를 제시한다. 기존 방법은 각 클립을 독립적인 임베딩으로 인코딩하고, 텍스트와의 코사인 유사도로 순위를 매긴다. 그러나 절차적 영상에서는 앞 단계의 시각적 상태(예: 재료가 깎여 있는 정도, 조리 도구의 위치)와 정체성(배우, 배경)이 지속되며, 이러한 연속성을 무시하면 ‘상태 오류’와 ‘정체성 오류’가 빈번히 발생한다. CAST는 이러한 문제를 해결하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 현재 상태 임베딩 vₜ₋₁에 텍스트 qₜ와 시각 히스토리 Hₜ를 조건으로 한 잔차 벡터 Δ를 예측한다. 최종 목표 임베딩은 ˆvₜ = L2norm(vₜ₋₁ + Δ) 로 정의되며, 이는 기존 임베딩에 절차적 변화를 직접 더하는 형태다. 잔차 방식은 정체성 정보를 그대로 보존하면서, 변화를 일으키는 요소만을 강조한다는 인덕티브 바이어스를 제공한다. 둘째, Δ를 두 개의 서브 네트워크로 분리한다. 하나는 텍스트와 현재 상태를 결합해 “조건부 상태 전이”를 학습하고, 다른 하나는 멀티헤드 크로스‑어텐션을 통해 긴 히스토리 Hₜ에서 장기적 맥락을 추출한다. 이렇게 하면 단순 텍스트‑클립 매칭보다 복합적인 시간적 의존성을 포착할 수 있다. 학습 단계에서는 백본을 고정하고 어댑터만 업데이트한다는 ‘플러그‑앤‑플레이’ 특성 덕분에 다양한 사전학습 비전‑언어 모델(CLiP, CLIP‑ViT 등)에 손쉽게 적용 가능하다. 평가를 위해 저자들은 YouCook2, COIN, CrossTask 세 절차적 데이터셋에 ‘상태 네거티브’와 ‘정체성 네거티브’를 명시적으로 포함한 CVR 벤치마크를 설계하였다. 이 벤치마크는 기존의 의미 중심 Recall@K와 달리, 동일한 영상 내에서 시간적으로 잘못된 단계(상태 오류)와 다른 영상에서 온 외관 불일치(정체성 오류)를 구분하도록 구성돼 있다. 실험 결과 CAST는 모든 데이터셋에서 기존 제로샷 및 파인튜닝 기반 모델을 앞서며, 특히 상태 구분 능력에서 큰 폭의 개선을 보인다. 또한, 비디오 생성 모델(Veo)의 후보들을 CAST의 점수로 재정렬했을 때, 인간 평가에서 시간적 일관성이 현저히 상승하는 것을 확인했다. 전체적으로 CAST는 복잡한 시계열 모델링 없이도 상태 전이를 효과적으로 학습함으로써, 절차적 비디오 검색과 생성의 품질을 동시에 끌어올리는 실용적인 솔루션이라 할 수 있다.

시각 상태 전이를 활용한 일관성 비디오 검색

초록

상세 분석

댓글 및 학술 토론

의견 남기기