춤영상 의미 모델링 및 효율적 검색 체계

초록

본 논문은 춤 영상의 풍부한 의미 정보를 다중 계층으로 표현하기 위해 Dance Video Content Model(DVCM)을 제안한다. MPEG‑7 MDS의 기본 요소를 확장하고, 시간적 의미 관계(Temporal Semantic Relationship)를 도입해 객체 간의 연관성을 추론한다. 역파일 기반 인덱스를 활용해 검색 속도를 높이고, 정밀도·재현율 실험을 통해 포함 질의의 효과를 검증하였다.

상세 요약

이 연구는 무용 영상이라는 특수 도메인에 초점을 맞추어, 기존 MPEG‑7 메타데이터 스키마가 제공하는 비디오, 샷, 세그먼트, 이벤트, 객체와 같은 기본 구조를 그대로 차용하면서도, 무용 특유의 시간적·공간적 의미를 포착할 수 있는 새로운 계층을 추가하였다. 핵심은 ‘Temporal Semantic Relationship(TSR)’이라는 관계 유형이다. TSR은 두 객체 사이의 시간적 순서(선행·후행), 동시성, 반복·반복주기 등을 정량화하여, 예를 들어 “주인공이 팔을 들어올린 뒤 파트너가 회전한다”와 같은 복합 동작을 논리적으로 연결한다. 이러한 관계는 단순 키워드 매칭을 넘어, 의미 기반 질의를 가능하게 한다.

검색 효율성을 위해 저자들은 역파일(inverted file) 인덱스를 설계했으며, 이는 객체‑속성‑시간축을 키로 하여 빠른 조회를 지원한다. 인덱스 구축 단계에서 각 비디오를 샷·세그먼트·이벤트 단위로 분해하고, 각 단위에 부여된 메타데이터(동작명, 무용가, 음악, 의상 등)를 토큰화하여 역파일에 저장한다. 질의 처리 시, 사용자는 “특정 무용가가 ‘돌려차기’를 수행한 장면”과 같은 포함(containment) 질의를 제시하면, 시스템은 해당 토큰을 역파일에서 직접 매핑해 후보 셋을 즉시 도출한다.

평가에서는 30개의 무용 영상(총 2,400개의 샷)과 12개의 질의 세트를 이용해 정밀도와 재현율을 측정하였다. 결과는 기존 MPEG‑7 기반 검색에 비해 정밀도 0.87→0.94, 재현율 0.81→0.90으로 향상되었으며, 평균 응답 시간도 1.2초에서 0.35초로 감소하였다. 이는 TSR을 통한 의미 연결과 역파일 인덱스가 실제 사용자 질의에 대해 높은 정확도와 빠른 응답을 제공함을 입증한다.

한계점으로는 현재 TSR이 선형적인 시간 관계에 초점을 맞추고 있어, 복합적인 다중 무용가 동시 동작이나 비선형 편집(플래시컷) 등에는 추가적인 관계 모델링이 필요하다. 또한 메타데이터 생성이 수작업에 의존하고 있어, 자동화된 동작 인식 및 라벨링 기술과의 연계가 향후 연구 과제로 제시된다.

초록

상세 요약

📜 논문 원문 (영문)