문맥 인식 비디오‑텍스트 정렬을 통한 비디오 시간 구간 탐색
초록
CVA는 질의‑의존적인 컨텍스트 다양화(QCD), 경계‑불변 대비 손실(CBD), 그리고 다중‑스케일 윈도우‑크로스 어텐션을 결합한 CTE 구조를 도입해, 배경 잡음에 강인하면서도 시간적으로 정밀한 비디오‑텍스트 정렬을 구현한다. QCD는 CLIP 기반 유사도 통계로 의미적으로 무관한 클립만 교체해 거짓 부정 샘플을 방지하고, CBD는 경계 부위의 표현을 컨텍스트 변동에 견고하게 만든다. 실험 결과 QVHighlights와 Charades‑STA에서 R@1이 기존 최고 수준보다 약 5점 상승하였다.
상세 분석
본 논문은 비디오 시간 구간 탐색(Video Temporal Grounding, VTG)에서 “배경 편향” 문제를 근본적으로 해결하고자 세 가지 혁신적 요소를 제시한다. 첫 번째 요소인 Query‑aware Context Diversification(QCD)은 기존의 무작위 컨텍스트 교체 방식이 질의와 무관한 클립을 섞어 거짓 부정(false negative) 샘플을 만들 수 있다는 점을 지적한다. 이를 해결하기 위해 사전 학습된 CLIP 모델을 이용해 전체 데이터셋 수준에서 영상 클립과 텍스트 질의 간 코사인 유사도를 계산하고, GT‑pair와 non‑GT‑pair의 유사도 분포를 각각 평균·표준편차로 요약한다. 이후 비율 기반(α‑percentile, β‑percentile) 임계값을 설정해 “의미적으로 무관하지만 완전히 무의미하지 않은” 클립만 교체 후보 풀에 포함시킨다. 또한 GT 구간과 그 양옆 p개의 인접 클립을 보존하는 확장 컨텍스트 윈도우를 정의해, 순간 인식에 필수적인 주변 정보를 훼손하지 않는다. 이렇게 질의‑의존적인 교체를 수행함으로써, 모델은 다양한 배경에서도 핵심 행동을 정확히 포착하도록 학습된다.
두 번째 핵심인 Context‑invariant Boundary Discrimination(CBD) 손실은 QCD가 만든 컨텍스트 변동에 대해 모델이 경계 표현을 일관되게 유지하도록 강제한다. 두 개의 서로 다른 혼합 비디오(V′_mix, V″_mix)에서 동일한 GT 구간의 시작·끝 인덱스(경계)를 추출하고, 각 경계 위치의 멀티모달 특징을 MLP로 투영한다. 이때 양쪽 증강에서 동일한 시점의 특징을 positive pair로, 주변 배경(N_adj)과 의미적으로 가장 혼동을 일으키는 hard negative(N_hard)를 결합한 집합을 negative로 삼아 대조 손실을 계산한다. 온도 파라미터 τ와 대조 점수 s(·,·)를 이용한 InfoNCE 형태의 손실은 경계 특징이 컨텍스트 변화에 불변하도록 학습시키며, 이는 순간의 정확한 시작·끝 예측에 직접적인 이득을 제공한다.
세 번째 요소인 Context‑enhanced Transformer Encoder(CTE)는 기존 DETR‑계열 모델이 비디오 내부의 시간적 구조를 충분히 활용하지 못한다는 점을 보완한다. CTE는 N_b개의 블록으로 구성되며, 각 블록은 (1) 윈도우 기반 로컬 셀프‑어텐션(윈도우 크기 W)으로 짧은 구간의 패턴을 포착하고, (2) 전역 셀프‑어텐션으로 질의(query) 토큰을 강화한다. 이후 양방향 크로스‑어텐션을 통해 영상 특징과 질의 토큰이 서로를 참조하도록 하여, 로컬 컨텍스트와 전역 질의 간의 상호작용을 촉진한다. 각 블록의 출력은 잔차 연결과 레이어 정규화를 거쳐 다음 블록으로 전달되고, 최종적으로 모든 블록의 영상 출력들을 concat한 뒤 가중합(ω)으로 원본 영상 특징과 결합한다. 이렇게 다중 스케일(로컬·글로벌) 정보를 통합한 CTE는 경계 특징을 더욱 풍부하게 만들며, CBD 손실과 시너지 효과를 낸다.
실험에서는 QVHighlights와 Charades‑STA 두 대형 VTG 벤치마크에서 기존 최첨단 모델 대비 Recall@1이 약 5%p 상승했으며, 특히 배경이 복잡하거나 동시 발생 행동이 많은 영상에서 큰 성능 향상을 보였다. Ablation study는 QCD 없이도 CTE와 CBD만으로도 개선 효과가 있음을 확인했지만, 세 요소를 모두 결합했을 때 가장 큰 상승을 기록한다. 또한, 정량적 분석 외에 시각화 결과는 QCD가 생성한 다양한 배경에서도 모델이 정확히 동일한 순간을 찾아내는 모습을 보여, 제안 방법의 “컨텍스트 불변성”을 직관적으로 입증한다.
전반적으로 CVA는 데이터 증강(질의‑의존적 컨텍스트 다양화)과 손실 설계(경계 불변 대비), 그리고 모델 구조(다중‑스케일 트랜스포머)의 세 축을 조화시켜, 비디오‑텍스트 정렬의 핵심 과제인 “배경 편향”을 효과적으로 완화한다. 이는 향후 복합 멀티모달 검색, 동작 인식, 그리고 영상 기반 질문 응답 등 다양한 응용 분야에 적용 가능한 일반화 가능한 프레임워크로 평가될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기