통합 이벤트 인식을 통한 영상 시간 구간 정밀 매칭

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

E.M.Ground는 하나의 토큰으로 전체 이벤트를 포괄하고, Savitzky‑Golay 평활화와 다중‑그레인 프레임 특징을 결합해 기존 Vid‑LLM 기반 시간 구간 정밀 매칭의 한계를 극복한다.

상세 분석

E.M.Ground는 기존 TVG(Temporal Video Grounding) 접근법이 시작·종료 프레임을 각각 별도 토큰으로 매칭하는 방식에서 벗어나, 이벤트 전체를 하나의 토큰에 집약한다는 근본적인 설계 전환을 시도한다. 이 토큰은 쿼리 이벤트의 모든 프레임 정보를 통합해 의미적 연속성을 보존함으로써, 시작·종료 경계에만 의존하는 기존 방법이 초래하는 ‘경계 편향’ 문제를 완화한다.

첫 번째 혁신은 토큰의 학습 목표를 “전체 프레임과 매칭”으로 정의한 점이다. 구체적으로, 토큰의 특징을 LLM의 두 번째 마지막 레이어에서 추출하고, 이를 프레임‑레벨 특징과 코사인 유사도 계산을 통해 정규화한다. 이후 유사도 시퀀스에 대해 임계값 σ를 적용해 연속적인 구간을 탐지하고, 구간 외부에서는 부드러운 라벨링(α·min(|t‑s|,|t‑e|))을 적용해 경계 전후의 급격한 변화가 최소화되도록 설계하였다. 이러한 라벨 스무딩은 모델이 “시작·종료”가 아닌 “전체 이벤트”를 인식하도록 유도한다.

두 번째 핵심은 Savitzky‑Golay 평활화이다. 토큰‑프레임 유사도 시퀀스는 영상 잡음, 프레임 압축, 시각적 변동 등에 의해 급격히 변동할 수 있다. Savitzky‑Golay 필터는 다항식 회귀 기반의 이동 평균을 적용해 고주파 노이즈를 억제하면서도 피크 형태를 보존한다. 결과적으로 짧은 이벤트나 VHD(Video Highlight Detection)와 같이 미세한 구간을 정확히 포착하는 데 유리하며, 기존의 단순 최대값 선택 방식보다 안정적인 경계 추정을 가능하게 한다.

세 번째 기여는 다중‑그레인 프레임 특징 집합이다. 기존 Vid‑LLM은 aggressive visual compression(예: 4×, 8× 프레임 샘플링)으로 인해 중간 프레임의 세부 정보가 손실되는 문제를 안고 있었다. E.M.Ground는 각 프레임을 L‑계층(L=1…L)에서 추출한 특징을 평균화해 다층 정보를 융합한다. 이렇게 얻어진 f_v_t는 저해상도 프레임에서도 풍부한 의미 정보를 담아, 토큰과의 매칭 정확도를 높인다.

학습 손실은 두 부분으로 구성된다. 기본 NLL(Negative Log‑Likelihood) 손실은 멀티모달 LLM의 텍스트 생성 목표를 유지하고, 별도 auxiliary loss L_matching은 프레임‑레벨 유사도와 스무딩 라벨 간의 교차 엔트로피를 최소화한다. 이중 손실 구조는 텍스트‑비디오 정합성뿐 아니라 시간적 정밀도도 동시에 최적화한다.

실험 결과는 Charades‑STA, TACoS, ActivityNet‑Caption 등 주요 TVG 벤치마크에서 기존 최첨단 모델(E.T.Chat, VTG‑LLM 등)을 크게 앞선 성능을 보였다. 특히 긴 영상(>30 s)에서의 R@0.5, mIoU 향상이 두드러졌으며, VHD 태스크에서도 peak‑preserving 특성 덕분에 F1 점수가 크게 상승했다. Ablation study는 토큰만 사용했을 때와 Savitzky‑Golay, 다중‑그레인 특징을 각각 추가했을 때의 성능 변화를 상세히 제시해, 각 구성 요소가 독립적으로 기여함을 입증한다.

요약하면, E.M.Ground는 “전체 이벤트를 하나의 토큰으로 인식하고, 시계열 노이즈를 평활화하며, 다층 시각 정보를 활용한다”는 세 가지 핵심 아이디어를 결합해, 기존 Vid‑LLM 기반 TVG의 구조적 한계를 근본적으로 해소한다. 이는 향후 멀티모달 LLM이 시간적 정밀성을 요구하는 다양한 응용(예: 영상 편집, 자동 요약, 인터랙티브 검색)으로 확장될 가능성을 열어준다.

통합 이벤트 인식을 통한 영상 시간 구간 정밀 매칭

초록

상세 분석

댓글 및 학술 토론

의견 남기기