위키카테고리와 중복콘텐츠를 활용한 웹 영상 자동 분류

초록

본 논문은 웹 영상의 카테고리를 자동으로 결정하기 위해 위키백과 카테고리(WikiCs)와 동일 콘텐츠를 담고 있는 다양한 형태의 오픈 리소스(CDOR)를 결합하는 새로운 프레임워크를 제안한다. 영상에서 핵심 위키 개념을 추출·분류한 뒤, 이를 기반으로 검색 질의를 생성해 CDOR를 수집하고, 수집된 텍스트 정보를 WikiC 공간에서 투표 방식으로 통합해 최종 카테고리를 결정한다. 실험 결과, 제안 방법이 기존 단일 소스 기반 모델 및 최신 방법보다 우수한 성능을 보였다.

상세 요약

이 연구는 웹 영상 메타데이터가 불완전하거나 잡음이 많은 현실적인 상황을 고려하여, 위키백과의 구조화된 카테고리 정보와 검색 엔진을 통한 다중 형태의 중복 콘텐츠(CDOR)를 융합한다는 점에서 혁신적이다. 먼저 영상에 포함된 텍스트(제목, 설명, 태그 등)에서 의미론적으로 중요한 위키 개념을 식별하고, 이를 사전 정의된 위키카테고리 집합에 매핑한다. 이 과정에서 개념의 차별성을 평가하기 위해 TF‑IDF와 개념 간 상호 연관성을 활용한 가중치 부여가 이루어진다. 식별된 개념들을 조합해 검색 질의를 생성하면, 일반 검색 엔진을 통해 웹 전역에서 해당 영상과 동일한 내용을 담은 문서, 블로그, 뉴스, 이미지 등 다양한 형태의 리소스를 자동으로 수집한다. 이렇게 확보된 CDOR는 원본 영상의 텍스트 메타데이터보다 풍부하고 잡음이 적은 정보를 제공한다는 가정 하에, 각 CDOR에 포함된 위키카테고리 라벨을 추출한다.

핵심은 “WikiC voting” 알고리즘이다. 각 CDOR이 제시하는 위키카테고리 라벨에 가중치를 부여하고, 이를 영상 수준에서 집계해 최종 카테고리를 결정한다. 가중치는 CDOR의 신뢰도(검색 순위, 도메인 신뢰도)와 해당 라벨의 빈도·중요도를 반영한다. 이 방식은 기존의 태그 기반 분류가 겪는 라벨 스팸과 의미 중복 문제를 완화하고, 다중 소스의 집합적 지식을 효과적으로 활용한다.

실험에서는 YouTube와 같은 대규모 웹 영상 데이터셋을 대상으로, 제안 모델을 (1) WikiC만 사용한 모델, (2) CDOR만 사용한 모델, (3) 기존의 딥러닝 기반 텍스트 분류 모델과 비교하였다. 결과는 정확도·정밀도·재현율 모두에서 제안 모델이 가장 높은 점수를 기록했으며, 특히 카테고리가 다중 레이블인 경우 성능 격차가 크게 나타났다. 이는 WikiC 공간이 의미적 계층 구조를 제공해 다중 라벨 상황에서도 효과적인 차원 축소와 라벨링을 가능하게 함을 시사한다.

한계점으로는 검색 엔진 의존성으로 인해 실시간 처리 비용이 증가할 수 있고, CDOR 수집 과정에서 도메인 편향이 발생할 가능성이 있다. 또한 위키백과 카테고리 자체가 최신 트렌드나 신조어를 반영하는 데 한계가 있어, 급변하는 영상 콘텐츠에 대한 적시성 확보가 과제로 남는다. 향후 연구에서는 경량화된 검색 모듈과 위키카테고리 자동 확장 기법을 결합해 실시간 적용성을 높이고, 멀티모달(영상·음성·자막) 정보를 통합하는 방향으로 확장할 수 있다.

초록

상세 요약

📜 논문 원문 (영문)