동작 참여자 상호작용 기반 대규모 비디오 동사 자동 라벨링

초록

본 논문은 비디오 클립을 인간·물체 간의 시공간적 상호작용만을 이용해 영어 동사로 라벨링하는 방법을 제안한다. 객체 종류나 세부 이미지 특징을 배제하고, 참가자들의 바운딩 박스 움직임만을 특징으로 사용한다. 22개 동사와 2,584개 영상에 대해 두 종류의 시계열 분류기(HMM, DTW)를 적용했을 때 70% 이상의 정확도(1‑out‑of‑22)와 85% 이상의 정확도(1‑out‑of‑10) 를 달성했다.

상세 분석

이 연구는 “동사”라는 언어적 단위가 본질적으로 사건 참여자 간의 관계와 움직임을 기술한다는 가정에 기반한다. 따라서 영상에서 객체의 구체적 종류(예: 사람, 차, 책)보다, 두 개 이하의 참여자가 시간에 따라 어떻게 위치·속도·가속을 변화시키는지가 핵심 정보가 된다. 저자들은 먼저 모든 영상에 대해 자동 혹은 반자동으로 사람과 물체를 검출하고, 각 프레임에서 최소 하나, 최대 두 개의 바운딩 박스를 추출한다. 이 바운딩 박스는 (x, y, w, h) 형태의 4차원 벡터이며, 시간에 따라 연속적인 시계열 데이터를 만든다.

특징 추출 단계에서는 단순히 절대 좌표 대신 상대적인 변위와 속도, 가속도, 그리고 두 참여자 사이의 거리와 각도 변화를 계산한다. 이렇게 얻은 시계열은 노이즈에 강하고, 객체의 시각적 외형과 무관하게 동일한 동작을 동일한 패턴으로 표현한다.

분류기 선택에 있어 저자들은 두 가지 전통적인 시계열 모델을 비교했다. 첫 번째는 은닉 마코프 모델(HMM)로, 연속형 관측값을 가우시안 혼합 모델(GMM)으로 모델링하고, 동사마다 별도의 HMM을 학습한다. 두 번째는 동적 시간 왜곡(DTW) 기반의 최근접 이웃(k‑NN) 방식으로, 각 테스트 시퀀스를 모든 학습 시퀀스와 DTW 거리를 계산해 가장 가까운 클래스로 라벨링한다. 흥미롭게도 두 방법 모두 22개 전체 동사에 대해 70% 이상, 10개 서브셋에 대해 85% 이상의 정확도를 보였으며, 성능 차이는 미미했다. 이는 “특징 선택”이 분류기의 복잡성보다 더 결정적인 역할을 함을 시사한다.

실험 결과는 또한 데이터 불균형과 동사 간 의미적 유사성(예: “push” vs “pull”)이 혼동을 일으키지만, 바운딩 박스 기반의 움직임 특징이 이러한 혼동을 어느 정도 완화한다는 점을 보여준다. 특히, 동작이 물체와의 접촉 여부에 따라 구분되는 경우(예: “pick up” vs “move”)에 높은 정확도를 기록했다.

이 논문의 주요 공헌은 (1) 객체 클래스 정보를 완전히 배제하고도 동사 라벨링이 가능함을 실증, (2) 매우 단순한 공간-시간 특징만으로도 대규모 멀티클래스 분류에서 경쟁력 있는 성능을 달성함, (3) 분류기 선택이 결과에 큰 영향을 미치지 않으며, 대신 언어적 불변성을 반영한 특징 설계가 핵심이라는 점을 강조한다. 이러한 접근은 로봇 인식, 비디오 검색, 자동 캡션 생성 등 다양한 응용 분야에서 경량화된 실시간 시스템 구축에 유용할 것으로 기대된다.