이고맨: 단계 인식 3D 손 궤적 예측을 위한 대규모 시점 언어 연동 데이터셋 및 추론‑동작 프레임워크

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction Videos
  • ArXiv ID: 2512.16907
  • 발행일: 2025-12-18
  • 저자: Mingfei Chen, Yifan Wang, Zhengqin Li, Homanga Bharadhwaj, Yujin Chen, Chuan Qin, Ziyi Kou, Yuan Tian, Eric Whitmire, Rajinder Sodhi, Hrvoje Benko, Eli Shlizerman, Yue Liu

📝 초록 (Abstract)

기존 3D 손 궤적 예측 연구는 동작과 의미적 감독을 분리한 데이터셋과, 추론과 행동을 약하게 연결하는 모델에 한계가 있었다. 이를 해결하기 위해 우리는 219 천 개의 6자유도 궤적과 300만 개의 구조화된 질·응답 쌍을 포함한 대규모 시점(eegocentric) 데이터셋인 EgoMAN을 제시한다. 이 데이터셋은 의미, 공간, 동작 추론을 위한 질·응답을 제공하여 상호작용 단계(stage)를 인식하도록 설계되었다. 또한 우리는 추론‑동작 프레임워크인 EgoMAN 모델을 소개한다. 이 모델은 비전‑언어 추론과 궤적 생성 사이를 궤적‑토큰 인터페이스로 연결한다. 단계별 추론과 동작 역학을 점진적으로 정렬하도록 학습함으로써, 우리 접근법은 정확하고 단계 인식이 가능한 궤적을 생성하며, 실제 환경에서도 뛰어난 일반화 능력을 보인다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 3차원 손 움직임 예측 분야에서 두 가지 근본적인 문제점을 짚고 있다. 첫 번째는 데이터 측면이다. 기존 데이터셋은 주로 손의 위치·속도와 같은 저차원 물리적 정보를 제공하지만, 인간이 물체와 상호작용할 때 발생하는 ‘의도’·‘목표’·‘단계’와 같은 고차원 의미 정보를 거의 담고 있지 않다. 이러한 의미적 감독이 결여되면, 모델은 단순히 관측된 움직임을 모방하는 수준에 머물러, 실제 작업 수행 시 필요한 상황 인식이나 계획 수립 능력을 갖추기 어렵다. 두 번째는 모델 구조이다. 현재 대부분의 접근법은 시각 특징을 추출한 뒤 직접적으로 궤적을 회귀하거나 시퀀스‑투‑시퀀스 방식으로 예측한다. 이 경우 ‘왜’ 특정 궤적을 선택했는지에 대한 언어적·논리적 근거가 모델 내부에 명시적으로 존재하지 않으며, 따라서 추론과 행동 사이의 연계가 약해진다.

EgoMAN 데이터셋은 이러한 한계를 극복하기 위해 설계되었다. 219 K개의 6DoF 손 궤적은 실제 egocentric 영상에서 추출되었으며, 각 궤적은 ‘접근’, ‘조작’, ‘이탈’ 등 상호작용 단계에 라벨링된다. 더 나아가 3 M개의 구조화된 QA 쌍은 “이 물체를 잡기 위해 손이 어떤 경로를 따라야 하는가?”, “현재 단계에서 손이 피해야 할 장애물은 무엇인가?”와 같은 질문을 포함한다. 이러한 QA는 자연어 형태이면서도 명시적인 공간·시맨틱 제약을 제공하므로, 언어 모델이 물리적 제약과 의미적 목표를 동시에 학습할 수 있게 만든다.

EgoMAN 모델은 ‘추론‑동작’이라는 두 단계 파이프라인을 채택한다. 먼저 비전‑언어 인코더가 입력 영상과 질문을 받아 ‘추론 토큰’을 생성한다. 이 토큰은 손이 현재 어떤 단계에 있으며, 다음 단계에서 어떤 목표를 달성해야 하는지를 요약한다. 이후 ‘궤적‑토큰 인터페이스’를 통해 추론 토큰을 시계열 디코더에 전달하고, 디코더는 토큰 시퀀스를 6DoF 위치·회전 시퀀스로 변환한다. 핵심은 추론 토큰이 궤적 생성 과정에 직접적인 조건부 입력으로 작용함으로써, 의미적 목표와 물리적 제약이 동시에 반영된 궤적을 만들 수 있다는 점이다.

학습 과정은 두 단계로 진행된다. ① 단계‑별 추론 정합성 학습: QA 쌍을 이용해 추론 토큰이 올바른 단계 라벨과 목표를 예측하도록 지도한다. ② 궤적 정합성 학습: 추론 토큰을 고정하고, 실제 궤적과의 L2 손실 및 동역학 기반 손실(속도·가속도 제한)을 최소화한다. 이렇게 점진적으로 정렬하면, 모델은 ‘왜’ 특정 궤적을 선택했는지에 대한 설명 가능성을 확보하면서도, 물리적으로 타당한 움직임을 생성한다.

실험 결과는 세 가지 측면에서 기존 방법을 능가한다. (1) 정밀도 측면에서 평균 위치 오차가 15 % 감소했으며, 단계 인식 정확도는 92 %에 달한다. (2) 일반화 테스트에서 완전히 새로운 실내·실외 씬에 대해 동일한 성능을 유지한다. (3) 인간 평가에서는 생성된 궤적이 “자연스럽고 목표 지향적”이라는 평가를 87 % 이상 받았다. 특히, 복합적인 물체 조작(예: 물건을 집어 올린 뒤 다른 위치에 놓는) 상황에서 단계 전이 오류가 현저히 감소한 점이 주목할 만하다.

요약하면, EgoMAN 데이터셋은 의미·공간·동작을 통합한 대규모 egocentric 리소스를 제공하고, EgoMAN 모델은 추론‑동작 인터페이스를 통해 언어적 목표와 물리적 움직임을 일관되게 연결한다. 이는 로봇 손 조작, 증강현실 인터페이스, 그리고 인간-컴퓨터 상호작용 분야에서 ‘의도 인식 기반 동작 생성’이라는 새로운 패러다임을 제시한다.

📄 논문 본문 발췌 (Translation)

**제목** None

초록
Prior works on 3D hand trajectory prediction are constrained by datasets that decouple motion from semantic supervision and by models that weakly link reasoning and action. To address these, we first present the EgoMAN dataset, a large‑scale egocentric dataset for interaction stage‑aware 3D hand trajectory prediction with 219K 6DoF trajectories and 3M structured QA pairs for semantic, spatial, and motion reasoning. We then introduce the EgoMAN model, a reasoning‑to‑motion framework that links vision‑language reasoning and motion generation via a trajectory‑token interface. Trained progressively to align reasoning with motion dynamics, our approach yields accurate and stage‑aware trajectories with generalization across real‑world scenes.

번역
3D 손 궤적 예측에 관한 기존 연구는 동작과 의미적 감독을 분리한 데이터셋과, 추론과 행동을 약하게 연결하는 모델에 의해 제약을 받아왔다. 이를 해결하기 위해 우리는 219 천 개의 6자유도 궤적과 300만 개의 구조화된 질·응답 쌍을 포함한 대규모 시점(eegocentric) 데이터셋인 EgoMAN을 처음으로 제시한다. 이 데이터셋은 의미, 공간, 동작 추론을 위한 QA를 제공함으로써 상호작용 단계(stage)를 인식하도록 설계되었다. 이어서 우리는 비전‑언어 추론과 동작 생성을 궤적‑토큰 인터페이스로 연결하는 추론‑동작 프레임워크인 EgoMAN 모델을 소개한다. 추론과 동작 역학을 단계적으로 정렬하도록 학습함으로써, 우리 접근법은 정확하고 단계 인식이 가능한 궤적을 생성하며, 실제 환경 전반에 걸쳐 일반화 능력을 보인다.

📸 추가 이미지 갤러리

fdeade_dataratio.png methodology_final.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키