비디오 시각 프롬프트를 활용한 LVLM 평가 벤치마크 V2P‑Bench

비디오 시각 프롬프트를 활용한 LVLM 평가 벤치마크 V2P‑Bench
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

V2P‑Bench는 980개의 비디오와 1 172개의 QA 쌍, 각각에 수작업으로 지정된 시각 프롬프트 프레임을 포함한 새로운 벤치마크이다. 텍스트 대신 시각 프롬프트를 사용해 인간‑모델 상호작용을 평가하며, 기본 인식, 시간 이해, 고차 추론의 3대 과제와 12개 세부 차원을 제공한다. 실험 결과, 최신 LVLM도 시각 프롬프트를 완전 제로샷으로 이해하지만 spatiotemporal 이해가 부족하고, 긴 영상·낮은 프레임 샘플링에서 ‘해킹 현상’이 나타나 성능이 인위적으로 상승한다는 문제를 밝혀냈다.

상세 분석

본 논문은 기존 비디오‑텍스트 기반 평가가 갖는 한계를 명확히 짚고, 시각 프롬프트를 인간‑모델 인터랙션의 핵심 입력으로 전환한다는 혁신적 접근을 제시한다. 데이터 구축 단계에서는 12개의 기존 비디오 데이터셋을 재구성해 20개의 세부 카테고리와 3가지 길이 구간(단·중·장)으로 균형을 맞추었으며, 각 QA 쌍마다 하나의 프레임에 사각형, 마스크, 타원, 삼각형, 스크리블, 포인트, 화살표, SoM 등 8가지 형태의 시각 프롬프트를 수작업으로 라벨링했다. 이는 모델이 ‘어디’를 바라봐야 하는지를 명시적으로 제공해 텍스트 기반의 복잡한 지시문을 대체한다.

벤치마크는 세 가지 과제(기본 인식, 시간 이해, 고차 추론)와 12개 세부 차원(예: 객체 속성, 인간 속성, 객체 방향, 전후 시간, 행동 순서, 인과 관계 등)으로 구성돼, 모델의 미세한 능력을 다층적으로 평가한다. 특히 시간 이해 차원에서는 순방향·역방향 흐름, 객체 이동 방향, 시퀀스 연속성 등을 테스트해 spatiotemporal 인식 능력을 정밀히 측정한다.

실험에서는 3개의 클로즈드소스 모델(o1, GPT‑4o, Gemini‑2.5‑Pro)와 12개의 오픈소스 LVLM을 동일한 프레임 샘플링 정책(대부분 128프레임, o1·GPT‑4o는 64프레임) 하에 평가했다. 결과는 o1이 전체 평균 71.8%로 가장 높은 점수를 기록했지만, 인간 전문가(88.3%)와는 여전히 격차가 크며 특히 ‘객체 방향’·‘행동 순서’ 차원에서 크게 뒤처진다. 오픈소스 모델은 대부분 60% 이하의 성능을 보였다.

또한 논문은 ‘Hack Phenomena’라 명명한 현상을 발견한다. 영상 길이가 길어지고 프레임 샘플링 밀도가 낮아질수록 모델이 실제 내용보다 프레임 간 연관성만을 이용해 정답을 추론하는 경향이 강화돼, 실제 이해도가 낮음에도 불구하고 점수가 인위적으로 상승한다. 이는 기존 벤치마크에서도 보고된 현상과 일맥상통하지만, V2P‑Bench는 시각 프롬프트와 긴 영상 구성을 통해 이 현상을 정량화하고 경고한다.

사용자 경험 조사에서도 시각 프롬프트가 텍스트 프롬프트 대비 질문 작성 시간·정확도·주관적 만족도 모두에서 우수함을 입증했다. 이는 인간‑모델 인터랙션에서 시각 프롬프트가 더 직관적이고 오류 발생 가능성이 낮은 입력 방식임을 시사한다.

전체적으로 V2P‑Bench는 비디오 LVLM 평가에 새로운 패러다임을 제시함과 동시에 현재 모델들의 spatiotemporal 이해 한계와 평가 메트릭의 함정을 동시에 조명한다. 향후 연구는 시각 프롬프트 인코딩 최적화, 프레임 선택 전략 개선, 그리고 해킹 현상을 방지하는 평가 프로토콜 설계가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기