자동 라벨링으로 만든 대규모 영상 움직임 데이터셋, FoundationMotion

자동 라벨링으로 만든 대규모 영상 움직임 데이터셋, FoundationMotion
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FoundationMotion은 객체 검출·추적과 대형 언어 모델을 결합해 영상에서 물체의 궤적을 자동으로 추출하고, 세밀한 움직임 캡션 및 질의‑응답 쌍을 생성한다. 이를 통해 50만 개 규모의 모션 데이터셋을 구축하고, NVILA‑Video‑15B·Qwen2.5‑7B 등 오픈소스 비전‑언어 모델을 파인튜닝해 기존 상용 모델(Gemini‑2.5 Flash)보다 우수한 움직임 이해 성능을 달성한다.

상세 분석

본 논문은 현재 비전‑언어 모델(VLM)이 “무엇이 움직이는가”(what) 정도는 파악하지만, “어떻게 움직이는가”(how)와 공간적 상호작용을 이해하는 데 한계가 있다는 점을 정확히 짚는다. 이러한 한계를 극복하기 위해 저자들은 두 가지 핵심 기술을 결합한다. 첫째, 최신 객체 검출·추적 파이프라인(예: Grounded‑DINO, SAM2, Cascade Mask RCNN + ViTPose+)을 이용해 영상에서 일반 객체와 인간‑손‑물체 관계까지 정밀하게 추적한다. 특히 손의 좌우 구분과 접촉 상태(무접촉, 자기접촉, 물체접촉 등)를 별도 모델(Hands23)로 판단해, 움직임을 “왼손이 오른쪽으로 이동하면서 컵을 잡는다”와 같이 세밀히 기술할 수 있다. 둘째, 추출된 궤적과 프레임 이미지 정보를 프롬프트로 변환해 대형 언어 모델(LLM)에게 전달한다. LLM은 궤적 데이터를 자연어로 요약하고, 다양한 난이도의 질문‑답변(QA) 쌍을 자동 생성한다. 여기서 중요한 점은 “질문 다양성”이다. 저자들은 단순 객체‑동작 질문뿐 아니라 “두 물체 사이의 상대 거리 변화”, “운동 경로의 기하학적 제약”, “시간 순서에 따른 상호작용” 등을 포함한 500 K 규모의 QA를 만든다.

데이터 구축 단계에서 영상 길이에 따라 5~10초 구간을 샘플링하고, 카메라 움직임이 큰 클립은 VGGT 기반 필터링으로 제외한다는 설계는 트래킹 오류를 최소화한다는 실용적 판단이다. 또한 오픈‑보카블리티 검출을 위해 Qwen2.5‑VL‑7B를 초기 프롬프트 생성에 활용하고, 이를 Grounded‑DINO에 전달해 정확한 바운딩 박스를 얻는 2‑step 전략은 라벨링 정확도를 크게 높인다.

파인튜닝 실험에서는 FoundationMotion 데이터셋으로 미세조정한 NVILA‑Video‑15B와 Qwen2.5‑7B가 MotionBench·FA‑VOR‑Bench 등 기존 모션 벤치마크에서 10~15%p 상승한 정확도를 보이며, 특히 “how” 질문에 대한 정답률이 크게 개선된다. 흥미롭게도 이러한 성능 향상이 다른 일반 비전‑언어 태스크(예: 이미지 캡션, 비디오 QA)에서는 오히려 성능 저하가 없거나 미미한 수준에 머물러, 모션 특화 데이터가 모델의 전반적 일반화 능력을 해치지 않음을 입증한다.

한계점으로는 자동 라벨링 과정에서 발생할 수 있는 오류(예: 트래킹 실패, 손‑물체 접촉 오인식)가 여전히 존재하고, LLM이 생성한 텍스트가 인간 평가 기준에 완전히 부합하지 않을 가능성이 있다. 또한 현재 파이프라인은 주로 2D 바운딩 박스와 2D 궤적에 의존하므로, 3D 공간 이해가 필요한 로봇 조작이나 자율주행 시나리오에선 추가적인 깊이 정보가 필요할 것이다. 그럼에도 불구하고, 대규모 자동 라벨링을 통해 “how” 모션 데이터의 스케일을 급격히 확대한 점은 향후 물리‑기반 인공지능 연구에 큰 전환점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기