비디오 언어 모델의 시간 시각 결함을 드러내는 REVEAL 벤치마크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비디오‑언어 모델(VidLM)의 시각적 근거, 시간 순서 및 움직임 이해 능력을 평가하기 위해 REVEAL이라는 진단 벤치마크를 제안한다. 다섯 가지 스트레스 테스트(언어 전용 편향, 비디오 시코팬시, 시간 기대 편향, 시공간 마스킹, 카메라 움직임 민감도)를 통해 최신 공개·폐쇄형 모델들을 검증한 결과, 모델들은 역재생 영상에 대해 정상적인 흐름을 묘사하거나, 시각적 증거와 상충하는 텍스트를 그대로 수용하는 등 인간 수준의 영상 이해가 부족함을 보였다. 인간은 모든 테스트를 쉽게 통과했으며, 저자는 자동 데이터 생성 파이프라인과 함께 코드를 공개해 향후 연구를 지원한다.

상세 분석

REVEAL은 기존 비디오 이해 벤치마크가 놓치기 쉬운 ‘시각‑언어 결합’의 미세한 약점을 체계적으로 드러내는 설계이다. 첫 번째 스트레스 테스트인 언어‑전용 편향은 텍스트만으로 정답을 유추할 수 있는 질문을 제시하고, 영상이 완전히 검은 화면이더라도 모델이 높은 정확도를 보이는지를 측정한다. 결과는 다수의 최신 VidLM이 시각 정보를 무시하고 언어적 사전 확률에 크게 의존한다는 점을 명확히 보여준다. 두 번째인 비디오 시코팬시 테스트는 인간이 만든 ‘거짓’ 서술을 영상에 삽입하고, 모델이 이를 진실로 받아들이는 비율을 평가한다. 여기서는 시간 순서 재배열, 미세 행동 교체, 상태 역전, 객체 속성 변형 등 네 가지 변형을 자동 생성했으며, 대부분의 모델이 거짓 서술에 동조해 시각적 근거를 무시한다는 심각한 시코팬시 현상이 관찰되었다.

시간 기대 편향 테스트는 영상 자체를 역재생하거나 중요한 구간을 삭제해 물리적·인과적 연속성을 깨뜨린다. 모델이 여전히 ‘앞으로 진행되는’ 행동을 서술하면, 사전 학습된 이벤트 스키마가 시각적 증거보다 우선한다는 증거가 된다. 실험에서는 역재생 촛불 영상에서도 모델이 여전히 ‘녹아가는’ 모습을 설명하는 등, 시간적 기대가 강하게 작용함을 확인했다. 시공간 마스킹 테스트는 연속된 프레임에서 서로 보완되는 영역을 마스크해, 전체 장면을 복원하려면 다중 프레임 통합이 필요하도록 설계되었다. 다수 모델이 마스크된 영상에 대해 정확한 답변을 제공하지 못해, 프레임 간 정보 통합 능력이 부족함을 드러냈다. 마지막으로 카메라 움직임 민감도 테스트는 줌, 팬, 틸트 등 기본적인 카메라 변환을 적용한 합성 영상과 실제 운전 영상에서 차선 변경 등을 인식하도록 요구한다. 여기서도 모델들은 카메라 움직임을 제대로 파악하지 못해, 시각적 움직임 인식이 약함을 입증했다.

전체적으로 REVEAL은 ‘시각 근거 사용’, ‘시간 순서 이해’, ‘동작 감지’라는 세 축을 정량화하고, 각 축별로 모델의 강점·약점을 명확히 구분한다. 자동화된 데이터 파이프라인은 기존 데이터셋(Ego4D, YouCook2, Charades 등)에서 손쉽게 변형 데이터를 생성하도록 설계돼, 재현성과 확장성을 동시에 확보한다. 이러한 접근은 향후 VidLM 개발 시, 단순 정확도 향상이 아니라 근본적인 멀티모달 이해 능력 향상을 위한 평가 기준을 제공한다는 점에서 큰 의의를 가진다.

비디오 언어 모델의 시간 시각 결함을 드러내는 REVEAL 벤치마크

초록

상세 분석

댓글 및 학술 토론

의견 남기기