동작 표현을 위한 대규모 멀티모달 영상 분할 데이터셋 MeViS
초록
MeViS는 2,006개의 복잡한 장면 영상에 대해 33,072개의 인간 주석 동작 표현(텍스트·오디오)을 제공하고, 8,171개의 객체에 대한 마스크·트랙킹 라벨을 포함한 대규모 멀티모달 데이터셋이다. 기존 영상‑언어 데이터셋이 정적인 속성에 의존하던 것과 달리, MeViS는 “날아가는 새”, “왼쪽에서 오른쪽으로 걷는 곰” 등 순수 동작 정보를 중심으로 설계돼, RVOS·AVOS·RMOT·RMEG 등 4가지 과제에서 기존 15개 방법을 벤치마크하고, 제안한 LMPM++가 새로운 최첨단 성능을 달성한다는 점을 보여준다.
상세 분석
MeViS는 기존 Referring Video Segmentation(RVOS) 데이터셋이 갖는 두 가지 근본적 한계를 극복한다. 첫째, 대상 객체를 정적인 색·형태 등으로 한 프레임만 보고도 식별할 수 있는 표현을 주로 사용했는데, MeViS는 “비행 중인 새”, “왼쪽에서 오른쪽으로 이동하는 자동차”처럼 시간적 움직임 자체가 식별 단서가 되도록 설계했다. 이는 모델이 프레임 간 연속성을 파악하고, 장면 내 다중 객체의 상대적 움직임을 비교·추론해야 함을 의미한다. 둘째, 기존 데이터는 텍스트만 제공했으나 MeViS는 150,000초 이상의 인간 녹음 및 TTS 음성 데이터를 추가해 Audio‑guided Video Object Segmentation(AVOS) 연구를 자연스럽게 확장한다.
데이터 구축 과정에서도 흥미로운 설계가 돋보인다. 영상은 다중 객체가 상호작용하고, 정적인 배경만으로는 구분이 어려운 장면을 선별했으며, 표현 수집 단계에서 “motion‑reasoning”(복합적인 시간 순서 추론을 요구)과 “no‑target”(동작은 존재하지만 대상이 없는) 표현을 별도로 라벨링해 모델이 ‘무관한’ 동작을 배제하도록 훈련할 수 있게 했다. 이러한 다양성은 실제 로봇·자율주행 등 실시간 상황 인식에 필수적인 ‘동작 기반’ 이해를 촉진한다.
벤치마크에서는 6개의 최신 RVOS, 3개의 AVOS, 2개의 RMOT, 4개의 비디오 캡셔닝 모델을 동일 프로토콜로 평가했으며, 전반적으로 기존 방법이 MeViS에서 현저히 성능 저하를 보였다. 특히 텍스트‑기반 모델은 동작 순서가 뒤바뀐 경우를 구분하지 못하고, 오디오‑기반 모델은 잡음이 섞인 인간 음성에 취약함을 확인했다.
제안된 LMPM++는 두 단계로 구성된다. 첫 단계에서는 언어‑조건부 쿼리를 이용해 영상 내 잠재 객체를 탐지하고, 객체별 임베딩을 추출한다. 기존 프레임‑레벨 피처를 그대로 LLM에 입력하는 방식과 달리, 객체 토큰을 사용함으로써 200프레임 이상의 긴 시퀀스를 효율적으로 처리한다. 두 번째 단계에서는 대형 언어 모델(LLM)에 객체 토큰을 입력하고, 시간‑레벨 대비 손실(temporal‑contrastive loss)을 적용해 “먼저 점프하고 나중에 뛰기”와 같은 미세한 순서 차이를 학습한다. 실험 결과, LMPM++는 RVOS, AVOS, RMOT 모두에서 기존 최첨단을 넘어서는 mIoU·AP·MOTA 향상을 달성했으며, 특히 “no‑target” 표현을 정확히 무시하는 능력이 돋보였다.
한계점으로는 아직 객체 검출 단계에서 복잡한 배경·조명 변화에 취약하고, LLM에 의존하는 부분이 계산 비용을 크게 증가시킨다는 점이다. 또한, 현재는 영어·중국어 음성에만 초점을 맞추었으므로 다언어 확장성이 필요하다. 향후 연구는 경량화된 객체‑토큰 인코더, 멀티‑모달 어텐션 강화, 그리고 인간‑로봇 인터랙션 시나리오에 맞는 실시간 추론을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기