LLM 기반 프레임 세그멘테이션으로 순간과 하이라이트 탐지
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)에 프레임 단위 0/1 텍스트 마스크를 출력하도록 프롬프트를 설계하고, 이를 이진 세그멘테이션 손실과 전통적인 언어 모델 손실과 함께 학습시켜 순간(moment) 검색과 하이라이트(highlight) 검출을 동시에 수행한다. 25개의 프레임만을 샘플링함에도 불구하고 QVHighlights 벤치마크에서 하이라이트 HIT@1 56.74점, 순간 MAP 35.28점을 기록하며, 세그멘테이션 손실이 언어 모델 손실이 정체될 때도 안정적인 학습 신호를 제공함을 보였다.
상세 분석
이 연구는 기존 MLLM 기반 텍스트 타임스탬프 생성 방식이 프레임‑레벨 그래디언트를 제공하지 못한다는 한계를 인식하고, 출력 토큰 자체를 프레임 세그멘테이션 마스크로 활용한다는 혁신적인 접근을 제시한다. 구체적으로, 비디오를 f = 25개의 프레임으로 균등 샘플링하고 각 프레임을 시각 인코더와 토크나이저를 통해 시각 토큰 시퀀스로 변환한다. 이후 LLM에게 “각 프레임에 대해 0 또는 1을 출력하라”는 프롬프트를 주어, 출력 토큰이 프레임 수와 1:1 매핑되도록 설계한다. ‘0’과 ‘1’은 각각 배경·전경을 의미하는 단일 토큰이며, BLIP‑3 토크나이저에서 고유 ID(29900, 29896)를 갖는다.
학습 단계에서는 출력 로짓을 소프트맥스로 변환해 전경 확률을 얻고, 이를 기반으로 여러 세그멘테이션 손실을 적용한다. 구체적인 손실 함수는 (1) 이진 교차 엔트로피(BCE) 손실로 클래스 불균형을 보정하기 위해 양성 가중치를 2.3378로 설정하고, (2) Tversky 손실을 통해 false‑negative와 false‑positive의 트레이드오프를 β = 0.7로 조정하며, (3) Generalized Dice 손실로 배치 내 전·후경 비율 차이를 자동 보정한다. 이 세 손실을 동일 가중치로 합산하고, 전통적인 causal LM 손실(L_lm)과 가중합(L = w_lm L_lm + w_bce L_bce + w_tv L_tv + w_gd L_gd)한다. 학습 초반에는 w_lm만 활성화하고, 점진적으로 세그멘테이션 손실 가중치를 증가시켜 LLM이 언어 구조를 먼저 학습하도록 유도한다.
추론 시에는 빔 서치를 통해 0/1 시퀀스를 생성하고, 각 토큰의 로짓을 그대로 하이라이트 점수로 사용한다. 연속된 1 구간은 순간(moment) 경계로 해석되어 시작·종료 시점을 추출한다. 프레임 간 간격을 실제 비디오 길이에 맞게 보간함으로써 초 단위의 연속적인 하이라이트 스코어를 얻는다.
실험에서는 QVHighlights 데이터셋을 사용했으며, 150초 길이의 비디오를 25프레임(≈6 s 간격)으로 샘플링했다. 시각 인코더는 고정하고, LLM은 PiSSA와 rsLoRA를 이용해 1.35억 파라미터만 미세조정했다. 11 epoch 학습 후, 하이라이트 HIT@1 56.74점으로 기존 RL 기반 TempSamp‑R1(57.1점)과 근소한 차이를 보였으며, 순간 MAP 35.28점으로 Moment‑DETR 베이스라인을 능가했다. 특히, 세그멘테이션 손실은 LM 손실이 포화될 때도 지속적으로 감소하며 안정적인 학습 신호를 제공함을 검증하였다.
이 접근법의 장점은 (1) 프레임‑레벨 직접 예측이 가능해 비디오 내 미세한 시간적 정보를 활용한다, (2) 텍스트 토큰을 그대로 활용해 LLM의 언어 이해와 추론 능력을 유지한다, (3) 기존 텍스트 기반 방법보다 훨씬 적은 프레임 수로도 경쟁력 있는 성능을 달성한다는 점이다. 한계로는 프레임 샘플링 간격이 비교적 넓어 짧은 순간을 놓칠 가능성이 있으며, 현재는 시각 인코더를 고정했기 때문에 영상 특화 학습이 제한적이다. 향후 프레임 수를 늘리거나, 시각 인코더를 공동 학습시키는 방안이 성능 향상에 기여할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기