V3C2 데이터셋 통찰과 활용
초록
본 논문은 Vimeo Creative Commons Collection의 두 번째 샤드인 V3C2의 기술적·시각적·텍스트·음성 특성을 정량적으로 분석하고, 영상 검색 및 멀티모달 연구에서의 활용 가능성을 제시한다.
상세 분석
V3C2는 1 425 451개의 세그먼트와 9 760개의 비디오로 구성되며, 전체 길이는 약 1 300시간에 달한다. 영상 길이와 세그먼트 길이 분포는 V3C1과 매우 유사해 Pearson 상관계수가 각각 0.939와 0.999에 이른다. 평균 146개의 세그먼트를 갖으며 최소 4개, 최대 5 814개의 세그먼트가 존재한다. 파일 포맷은 MP4가 98.79%로 압도적이며, 그 외 MO V, M4V 등이 소수 차지한다. 해상도는 1280×720이 가장 흔하고, 1920×1080이 그 뒤를 잇는다. 카테고리 측면에서는 Vimeo 제작자가 지정한 71개 카테고리 중 상위 10개가 V3C1과 동일하게 나타나며, 순위 상관계수는 0.987로 거의 일치한다. 색상 분석에서는 키프레임 23%가 지배적인 색을 갖지 못하고, 나머지는 회색‑톤(≈58%)과 검정/흰색(≈8%)이 주를 이룬다. 고수준 시각 특징은 Inception‑ResNet‑v2의 마지막 레이어를 이용해 추출했으며, 두 샤드 간 L1 거리 분포가 거의 동일해 시멘틱 변동성이 비슷함을 확인한다. 객체 검출(YOLOv4, COCO‑80)에서는 5 009 059개의 객체 인스턴스가 발견됐으며, 평균 3.5개가 키프레임당 존재한다. 얼굴 검출(FaceNet) 결과는 1 352 749개의 얼굴이 식별됐으며, 키프레임의 59.5%는 얼굴이 없고, 23.1%에 한 개만 존재한다. 텍스트 검출은 EasyOCR을 활용해 9 467개의 비디오에서 텍스트가 발견됐고, 전체 세그먼트의 29.88%에 텍스트가 포함된다. 텍스트 아이템 수는 대부분 5개 이하이며, 긴 텍스트가 포함된 프레임은 소수에 불과하다. 음성 분석은 DeepSpeech와 VAD를 결합해 9 613개의 비디오에서 음성 구간을 추출했으며, 평균 90.3%의 영상에 음성이 존재한다. 그러나 단어당 평균 속도는 크게 편차가 나며, 비음성 구간이 음성으로 오인되는 경우가 다소 있다. 전반적으로 V3C2는 기술적·시멘틱·멀티모달 측면에서 높은 다양성을 보이며, 텍스트·음성·시각 정보가 고르게 분포되지 않아 단일 모달에 의존한 검색 시스템보다는 멀티모달 융합 접근이 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기