비디오 미학 인식 벤치마크 VideoAesBench 발표

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VideoAesBench는 1,804개의 다양한 비디오와 12개의 세부 미학 차원을 포함한 4가지 질문 형식(단일 선택, 복수 선택, O/X, 자유 서술)으로 구성된 최초의 비디오 미학 평가 벤치마크이다. 23개의 공개·상용 대형 멀티모달 모델을 평가한 결과, 현재 모델들은 기본적인 미학 인식은 가능하지만 정확도와 일관성에서 크게 부족함을 보였다.

상세 분석

본 논문은 대형 멀티모달 모델(LMM)이 인간 수준의 비디오 미학 판단을 수행할 수 있는지를 체계적으로 검증하기 위해 VideoAesBench라는 새로운 벤치마크를 설계하였다. 데이터 수집 단계에서는 UGC, AIGC, RGC, 압축 영상, 게임 영상 등 5가지 출처를 아우르는 10개의 기존 데이터셋을 통합하고, 각 출처별 비율을 균형 있게 샘플링하여 총 1,804개의 비디오를 확보하였다. 비디오당 평균 1개의 질문‑답 쌍을 생성했으며, 질문은 크게 시각적 형태(구성, 요소·구조, 샷 크기, 심도, 주제), 시각적 스타일(조명, 색채, 톤, 창의성), 시각적 감성(감정, 주제·소통, 시청자 흥미)이라는 3대 축과 그 하위 12개 세부 차원으로 구분한다.

질문 형식은 기존의 단일 선택과 O/X 외에 복수 선택(MC)과 자유 서술(Open‑Ended) 두 가지를 추가함으로써 모델의 정밀도와 설명 가능성을 동시에 평가한다. 특히 MC 질문은 정답이 다중인 상황을 제시해 모델이 모든 미학 요소를 포괄적으로 인식하는지를 테스트한다.

벤치마크 구축 과정에서 인간‑인‑루프(HITL) 방식을 적용해 질문‑답의 질을 보증했으며, 질문 텍스트의 워드 클라우드 분석을 통해 용어 편향을 최소화하였다. 데이터 통계는 해상도·길이·내용 분포가 고르게 이루어져 있어 모델이 특정 영상 특성에 과적합되는 위험을 낮춘다.

평가에서는 18개의 오픈소스 LMM과 5개의 클로즈드소스 모델을 대상으로 정확도, F1, BLEU, ROUGE 등 다중 메트릭을 사용했다. 결과는 다음과 같다. (1) 클로즈드소스 모델이 전반적으로 높은 성능을 보였지만, Qwen3‑VL은 오픈소스 모델보다 뒤처졌다. (2) 단일 선택과 O/X 질문은 평균 70% 이상의 정확도를 기록했으나, 복수 선택과 자유 서술은 40% 이하로 급격히 떨어졌다. (3) 시각적 형태 차원은 비교적 높은 점수를 받았지만, 스타일·감성 차원에서는 일관된 오답이 다수 발생했다. (4) 특정 비디오 유형(예: 압축 영상, 로봇 영상)에서는 모든 모델이 성능 저하를 보였으며, 이는 현재 LMM이 영상의 물리적 왜곡이나 비전형적 콘텐츠를 인식하는 데 한계가 있음을 시사한다.

이러한 분석을 통해 저자들은 현재 LMM이 “기본적인 미학 판단”은 가능하지만, “세밀하고 다차원적인 미학 해석”에서는 아직 미흡함을 강조한다. 또한, 복수 선택 및 자유 서술 질문이 모델 개발의 향후 과제로 부각되며, 데이터 다양성 확보와 미학 차원별 라벨링 정교화가 필요함을 제언한다.

비디오 미학 인식 벤치마크 VideoAesBench 발표

초록

상세 분석

댓글 및 학술 토론

의견 남기기