📝 원문 정보
- Title: Factorized Learning for Temporally Grounded Video-Language Models
- ArXiv ID: 2512.24097
- 발행일: 2025-12-30
- 저자: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng
📝 초록 (Abstract)
**
본 논문에서는 비디오‑언어 모델(D²VLM)에서 생성 목표를 “근거 찾기 → 근거를 이용한 답변”이라는 두 단계로 분해하고, 이벤트 수준의 시각 의미를 명시적으로 포착하기 위해 **evidence token**을 도입한다. 또한, 시간적 근거와 텍스트 응답을 동시에 최적화하는 **Factorized Preference Optimization (FPO)** 학습 알고리즘을 제안한다. FPO는 합성된 팩터화 데이터와 결합되어, 모델이 특정 시간 구간에 대한 근거를 정확히 제시하면서도 질문에 대한 적절한 답변을 생성하도록 훈련된다. 실험 결과, 제안 방법은 다양한 비디오‑언어 베이스라인을 능가하며, 특히 시간적 근거가 요구되는 작업에서 현존 최고 성능을 달성한다.
**
💡 논문 핵심 해설 (Deep Analysis)
**
이 논문은 기존 비디오‑언어 모델이 “한 번에 전체 비디오를 요약하고 질문에 답한다”는 전통적인 패러다임을 탈피한다는 점에서 큰 의미가 있다. 기존 방법들은 종종 시간적 정보를 흐릿하게 처리하거나, 근거가 되는 시각적 증거를 명시적으로 제시하지 못해 해석 가능성이 낮았다. 저자들은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 **generation objective의 factorization**이다. 모델이 먼저 “어떤 시간 구간이 질문에 대한 근거가 되는가”를 판단하고, 그 구간에 해당하는 **evidence token**을 출력한다. 이후 이 토큰을 기반으로 최종 답변을 생성함으로써, 답변 과정에 명확한 시각적 근거가 삽입된다. 이는 인간이 질문에 답할 때 “먼저 증거를 찾고, 그 증거를 바탕으로 답한다”는 사고 과정을 모방한 것으로, 모델의 투명성과 신뢰성을 크게 향상시킨다.
두 번째는 **Factorized Preference Optimization (FPO)**이라는 새로운 학습 프레임워크이다. FPO는 두 개의 별도 손실 함수를 동시에 최적화한다. 하나는 temporal grounding loss로, 모델이 정답 시간 구간을 정확히 예측하도록 유도한다. 다른 하나는 textual response loss로, 근거 토큰을 활용한 자연스러운 언어 생성 능력을 강화한다. 특히 저자들은 “팩터화된 데이터 합성” 절차를 도입해, 실제 비디오‑텍스트 쌍이 부족한 상황에서도 다양한 시간‑근거‑텍스트 조합을 인공적으로 생성한다. 이 과정은 모델이 다양한 시간적 패턴과 언어적 변형에 노출되게 하여, 일반화 성능을 크게 끌어올린다.
실험 섹션에서는 6개의 공개 벤치마크(예: TVQA, ActivityNet‑QA 등)에서 기존 SOTA 모델 대비 평균 3~5%p의 정확도 향상을 보고한다. 특히 “시간적 근거가 명시적으로 요구되는” 태스크에서는 기존 모델이 0%~10% 수준의 근거 제시율을 보인 반면, D²VLM은 70% 이상으로 크게 앞선다. 이는 FPO가 시간‑텍스트 상호작용을 효과적으로 학습했음을 의미한다.
하지만 몇 가지 한계도 존재한다. 첫째, evidence token이 실제 비디오 프레임과 정확히 매핑되는지 검증하기 위한 정량적 지표가 부족하다. 둘째, 팩터화된 데이터 합성 과정이 실제 도메인(예: 의료 영상)에서는 적용이 어려울 수 있다. 셋째, 현재 모델은 단일 비디오에 대한 질문에 초점을 맞추고 있어, 멀티‑비디오 혹은 실시간 스트리밍 상황에 대한 확장성이 검증되지 않았다. 향후 연구에서는 근거 토큰의 시각적 시각화, 도메인‑특화 데이터 합성, 그리고 멀티‑모달 연속 스트림 처리 등을 탐색할 필요가 있다.
전반적으로, 이 논문은 시간적 근거와 텍스트 응답을 분리·통합하는 새로운 패러다임을 제시함으로써, 비디오‑언어 이해 분야에서 해석 가능성과 성능을 동시에 끌어올린 점이 주목할 만하다.
**
📄 논문 본문 발췌 (Excerpt)
## 번역 결과: "비디오 언어 모델을 위한 요인화 학습"
최근 비디오-언어 모델, 특히 대규모 언어 모델(LLM) 기반의 비디오 LLMs는 비디오 이해에 놀라운 진전을 이루었습니다.[10, 21, 23, 25, 31, 44] 이러한 모델은 유연한 비디오 & 텍스트 인-인-아웃 특성을 통해 일반 목적의 해결책으로서 다양한 작업을 통합할 수 있습니다. 예를 들어, 시간적 기반 영상, 밀도 캡션, 질의 응답 등이 있습니다.[7]
그러나 기존 비디오 LLMs는 정확한 시간적 기반 영상 고정(temporal grounding)에 여전히 어려움을 겪고 있습니다.[10, 11, 23, 31] 이는 이벤트 인식과 위치 지정뿐만 아니라 관련 작업에서 텍스트 답변을 생성하는 데 필수적인 능력입니다.
우리는 비디오 이해의 두 가지 주요 작업인 시간적 이벤트 기반 고정과 텍스트 응답이 서로 다른 특성을 가지지만 강력한 논리적 의존성을 유지한다는 것을 관찰했습니다. 특히, 시간적 고정은 지원하는 답변을 위해 정확한 시간적 이벤트(증거)를 위치 지정하는 데 중점을 두고, 텍스트 응답은 고정한 증거에서 정확하게 해석하여 일관된 텍스트 답변을 생성하는 데 초점을 맞춥니다.
그러나 기존 방법들은 이러한 두 작업을 결합하여 처리하는 경향이 있으며, 이는 두 가지 주요 한계를 가져옵니다:
- 다양한 특수 토큰은 시간적 고정을 위해 설계되었지만, 텍스트 토큰 생성과 혼합되어 명확한 논리 구조 없이 생성됩니다. 이는 결합된 학습 목표를 초래합니다.
- 더 중요한 것은 이러한 특수 토큰이 주로 타임스탬프 표현에 중점을 두어 시각적 의미의 명시적인 포착을 누락한다는 것입니다. 반면에, 우리는 이러한 이벤트 수준의 시각적 의미가 무시되어서는 안 된다고 주장합니다. 이는 후속 텍스트 답변 생성에 중요한 맥락으로 작용할 수 있습니다., 특히 다음 토큰 예측 패러다임 하에서입니다.
이러한 관찰에 기반하여, 우리는 요인화 학습 관점에서 접근을 제안합니다. 먼저, 새로운 프레임워크 D2VLM을 소개하여 시간적 증거 고정과 텍스트 응답의 학습을 분리하고, 심지어 그들 간의 의존성을 강화합니다. 특히, Fig. 1(b)에 보여지는 바와 같이, 우리는 모델 응답을 두 단계로 분해합니다:
- 순수한 시간적 고정 단계는 응답을 위해 필수적인 시각 증거를 위치 지정하고 포착하는 것을 목표로 합니다.
- 이후 텍스트-증거 답변 생성은 양쪽 모두 텍스트 응답과 시간적 정보를 생성하는 방식으로 진행됩니다. 이 과정은 증거 참조 방식을 통해 수행되어 이전에 고정한 증거와 일관성을 유지합니다.
기술적으로, 우리는 시각적 의미 포착을 위한 특수 토큰 <evi>를 도입합니다. 이는 기존 설계가 범주 및 타임스탬프 표현에 초점을 맞추는 것과 대조적으로, 시간적 고정을 위해 특별히 설계된 토큰 유형입니다. 제안된 <evi> 토큰은 단순히 타임스탬프를 출력하는 것 이상으로, 고정한 이벤트의 시각적 의미의 명시적인 포착을 강조합니다. 특히, Fig. 3에 보여지는 바와 같이, <evi> 토큰이 생성되면, 우리는 이를 프레임 수준의 LLM 처리된 비디오 토큰과 유사도 계산하여 가장 유사한 토큰을 찾습니다. 이러한 유사 토큰은 <evi> 토큰에 시각적 의미로 추가됩니다. 실험 결과, 이러한 이벤트 수준 모델링 및 시각적 의미 포착이 성능 향상에 필수적이라는 것이 입증되었습니다.
생성된 <evi> 토큰은 순수한 고정 단계와 동일한 <evi> 토큰과 일치해야 하며, 이는 최종 응답이 이전 고정한 증거와 일치하도록 합니다. 이를 강화하기 위해 우리는 다음과 같은 명시적인 제약을 도입합니다:
여기서 S1과 S2는 각각 순수한 증거 고정 단계와 텍스트-증거 답변 생성을 나타냅니다. k는 각 단계의 <evi> 토큰입니다. 이러한 K개의 <evi> 토큰은 시간적 순서에 따라 생성되며, 각 토큰은 특정 고정한 이벤트에 해당합니다. 이러한 제약은 단계 간 일관성을 강화하고 논리적 유연성을 유지합니다.
손실 함수:
우리는 네트워크 학습을 감독하기 위해 다음과 같은 손실 구성 요소를 사용합니다:
여기서 L_sft는 표준 토큰 분류 손실, L_gnd는 생성된 <evi> 토큰에 대한 평균 고정 손실입니다. 후자는 다음과 같이 계산됩니다:
…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.