이 논문에서는 제1인칭 시점의 동영상에서 손과 물체 간 상호작용을 3D 세계 좌표계에 재구성하는 방법을 제안한다. EgoGrasp는 다단계 "감지–생성–최적화" 프레임워크를 사용하여 현대 감지 시스템에서 얻은 정확한 3D 정보를 활용하면서, 시간과 공간적으로 일관된 결과를 보장하기 위해 생성적인 동작 사전을 도입한다. EgoGrasp는 다음과 같은 세 단계로 작동한다: (1) 전처리: 제1인칭 동영상에서 정확한 카메라 궤적과 밀도가 높은 기하학적 정보를 복원하여 일관된 세계 좌표계를 설정하고, 초기 3D 손 자세와 물체의 6자유도 자세를 추출 및 정렬한다. (2) 동작 확산: 두 단계로 구성된 분리된 확산 모델을 사용하여 연속적인 손과 물체의 동작을 생성한다. 첫 번째 단계는 SMPL-X 전체 신체 자세에 의해 안내되는 시간적으로 안정적인 손 궤적을 생성하며, 두 번째 단계에서는 CAD 모델 없이 자연스러운 동작을 포착하고 세계 좌표에서의 이동을 줄인다. (3) 테스트 시 최적화: SMPL-X 매개변수를 최적화하여 공간 정확성, 시간 부드러움 및 발-지면 접촉 일관성을 개선한다.
💡 논문 해설
#### 1. 핵심 기여
- **제1인칭 시점의 동영상에서 손과 물체 간 상호작용 재구성:** EgoGrasp는 제1인칭 동영상을 통해 손과 물체 사이의 상호작용을 3D 세계 좌표계에 재구성하는 첫 번째 방법이다. 이는 로봇, 가상현실 등 다양한 분야에서 활용될 수 있는 강력한 도구다.
- **생성적 동작 사전을 통한 일관성 보장:** EgoGrasp는 생성적인 동작 사전을 사용하여 시간과 공간적으로 일관된 결과를 제공한다. 이를 통해 손과 물체의 상호작용이 자연스럽게 재구성된다.
- **다양한 환경 조건에서의 강력한 성능:** EgoGrasp는 다양한 제1인칭 동영상에서 우수한 성능을 보여주며, 특히 동적인 카메라 움직임과 실제 세계 조건에서도 안정적으로 작동한다.
2. 단계별 설명
전처리 단계: 이 단계에서는 초기 손 자세와 물체의 6자유도 자세를 추출하고 정렬하여 일관된 세계 좌표계를 설정한다.
동작 확산 모델: 분리된 두 단계로 구성된 동작 확산 모델을 사용하여 시간적으로 안정적인 손 궤적과 자연스러운 손-물체 상호작용을 생성한다.
테스트 시 최적화: 마지막으로, SMPL-X 매개변수를 최적화하여 공간 정확성과 시간 부드러움을 향상시킨다.
3. 메타포 설명
EgoGrasp는 제1인칭 동영상을 보고 손이 무엇을 하는지 알아내는 것처럼 작동한다. 이 방법은 마치 우리가 실제 세계에서 자신이 어떤 행동을 하고 있는지를 인식하는 방식과 비슷하다.
📄 논문 발췌 (ArXiv Source)
# 소개
style="width:95.0%;height:6cm" />
EgoGrasp는 제1인칭 단일 카메라 동영상에서 세계 좌표계 손-물체 상호작용을 재구성한다.
제1인칭 동영상을 통해 HOI(Human Object Interaction) 이해는 컴퓨터 비전과 몸체 인텔리เจン스의 기본적인 문제이다. 정확한 세계 좌표계 HOI 메시를 재구성하는 것은 인간 행동 분석과 embodid AI, 로봇공학 및 가상/증강 현실에 대한 후속 응용 프로그램을 가능하게 하는 데 중요하다. 제3인칭 관찰 대비 제1인칭 동영상은 인간이 자신의 시점에서 어떻게 물체를 인식하고 행동하는지에 대해 풍부한 단서를 제공한다. 그러나 이러한 동영상은 일반적으로 고도로 제약받지 않은 환경에서 동적인 카메라로 녹화되며, 자주 일어나는 가림과 움직임 블러 및 복잡한 손-물체 동작으로 인해 강건한 3D 재구성을 극히 어렵게 만든다. 인간 행동을 완전하게 해석하고 모델링하려면 카메라 좌표계에서의 프레임별 기하학적 정보를 넘어, 손과 물체의 일관된 시간 궤적이 세계 좌표계에서 복원되어야 한다.
3D 손과 HOI 재구성에 대한 급속한 발전에도 불구하고, 현존하는 방법은 제1인칭 환경에서 적용되었을 때 여전히 한계를 가진다. 대부분의 접근법은 이미지 또는 짧은 시퀀스 수준에서 작동하며 프레임별로 3D 손 자세와 물체 자세를 추정하지만, 장기적인 시간 일관성을 강제하지 않는다. 또한 거의 모든 이전 HOI 및 물체 6DoF 추정 프레임워크는 카메라 좌표계에서 결과를 예측하며, 착용자가 움직일 때 동적으로 변화하여 시간에 걸친 일관된 전역 궤적을 얻는 것이 불가능하다. 일부 최근 작업은 [[IMG_PROTECT_N]] 구별 가능한 렌더링을 통합하여 공간 정렬을 개선하지만 이러한 방법들은 종종 잡음에 민감하며 고도로 동적인 실제 조건에서 불안정하다. 또한, 제1인칭 동영상은 카메라, 신체 및 손 간의 구조적 단서를 본질적으로 인코딩하나 대부분의 기존 접근법은 그러한 결합 사전을 활용하여 움직임 추정을 안정화하는 것을 거의 사용하지 않는다.
현실 세계에서의 세계 좌표계 손-물체 상호작용 재구성은 여전히 매우 어려운 문제이다. 카메라와 로컬 손/물체 동작의 얽힘은 전역 궤적 복원을 복잡하게 하고 세계 정렬 추정을 방해한다. 실제 조건에서는 알려지지 않은 물체가 등장하므로 범주, 형태 및 수량에 걸친 일반화를 요구하는 템플릿 없는 재구성이 필요하다. 가림과 움직임 블러 하에서 견고한 추정은 프레임별 인식 또는 구별 가능 렌더링에 의존하는 방법에게 어려운 문제이다. 또한, 장기 제1인칭 시퀀스에서 공간-시간 일관성을 유지하면서 드리프트를 방지하고 가능성 확보는 여전히 개방된 도전 과제다.
이러한 도전을 극복하기 위해 [[IMG_PROTECT_N]] EgoGrasp를 제안한다. 이 방법은 우리가 아는 바로는 제1인칭 단일 카메라 동영상에서 세계 좌표계 손-물체 상호작용(W-HOI)을 재구성하는 첫 번째 방법이다. EgoGrasp는 현대 감지 시스템에서 신뢰할 수 있는 3D 정보를 활용하면서 시간적 및 전역적인 일관성을 보장하기 위해 생성적인 동작 사전을 도입하는 다단계 “감지–생성–최적화” 프레임워크를 채택한다.
EgoGrasp는 세 단계로 작동한다: (1) 전처리: 제1인칭 동영상에서 정확한 카메라 궤적과 밀도가 높은 기하학적 정보를 복원하여 일관된 세계 좌표계를 설정하고, 초기 3D 손 자세와 물체의 6DoFs를 추출 및 정렬한다. (2) 동작 확산: 이 두 단계로 구성된 분리된 동작 확산 모델은 연속적인 손-물체 동작을 생성한다. 첫 번째 단계는 SMPL-X 전체 신체 자세에 의해 안내되는 시간적으로 안정적인 손 궤적을 생성하며, 두 번째 단계에서는 CAD 모델 없이 자연스러운 동작을 포착하고 세계 좌표에서의 이동을 줄인다. (3) 테스트 시 최적화: 구별 가능 최적화를 통해 SMPL-X 매개변수를 최적화하여 공간 정확성, 시간 부드러움 및 발-지면 접촉 일관성을 개선한다.
우리는 H2O와 HOI4D 데이터셋에서 EgoGrasp을 검증하고 세계 좌표계 손 추정과 HOI 재구성에 대한 최고의 결과를 달성하며 강력한 전역 궤적 일관성을 보여준다. 이는 동적인 카메라 움직임 및 실제 조건에서의 견고함을 증명한다.
우리의 핵심 기여는 다음과 같이 요약된다:
제1인칭 AI의 요구에 의해 현존하는 손 자세 추정, 손-물체 상호작용 모델링 및 물체 6DoF 추적 접근법의 한계를 종합적으로 분석한다. 이러한 통찰을 바탕으로, 세계 좌표계 손-물체 상호작용(W-HOI) 작업을 소개한다.
제1인칭 동영상에서 W-HOI 재구성을 위한 새로운 프레임워크를 제안하며 이 접근법은 전역 좌표계에서 일관된 HOI 궤적을 생성하면서 템플릿 없이 임의의 수의 물체에 확장 가능하다.
광범위한 실험은 EgoGrasp가 H2O와 HOI4D 데이터셋에서 기존 방법보다 크게 우수하고 실제 조건에서 W-HOI 재구성에 대한 새로운 최고 성능을 설정함을 보여준다.
관련 작업
손 자세 추정
최근 몇 년 동안 손 자세 추정은 급속히 발전했으며 초기 방법은 주로 제3인칭 시점에서 미만한 가림과 안정적인 카메라 시점을 가정하였다. 단일 손 접근법은 일반적으로 MANO 모델 매개변수를 회귀하고, 두 손 방법은 상호작용 재구성을 위해 암시적 모델링이나 그래프 컨볼루션을 사용한다.
제1인칭 손 추정은 로봇에게 제1인칭 시점에서 조작 작업을 가르치는 데 중요하며 몸체 인텔리전스 및 가상현실의 발전을 촉진한다. 기존 방법은 일반적으로 카메라 좌표계에서 손 자세를 재구성하므로 전역적으로 손-물체 상호작용을 모델링하는 데 제한된다. 이를 극복하기 위해 최근 연구들은 세계 좌표계에서 손 자세와 궤적을 복원하기 위한 월드스페이스 포즈 추정을 탐색하였다. 예를 들어, Dyn-HaMR은 SLAM 기반 카메라 추적과 손 동작 회귀를 통합하여 4D 전역 동작 재구성을 달성한다. 마찬가지로 HaWoR는 적응형 SLAM 및 동작 완성 네트워크를 활용하여 손 궤적이 카메라 궤적에서 분리되어 세계 프레임에서 손-물체 상호작용을 모델링할 수 있다.
비록 많은 발전이 이루어졌지만, 현재 제1인칭 손 추정 방법은 여전히 중요한 손-물체 상호작용(HOI)을 간과하여 몸체 작업에 대한 적용성을 제한한다. 최근 접근법은 손 자세 재구성에서 개선되었으나 손과 물체 사이의 복잡한 동적 관계를 명시적으로 모델링하지 못했다. 게다가 현재 방법은 종종 제1인칭 사전을 충분히 활용하지 않아 견고성 및 일반화가 감소한다. 이러한 도전 과제를 해결하기 위해 우리의 EgoGrasp는 세계 좌표계에서 손-물체 동작을 공동 모델링한다. [[IMG_PROTECT_N]]
손-물체 상호작용 추정
손 자세와 물체 6DoF 추정은 본질적으로 어려우며, 특히 손과 물체 간 상호작용(HOI) 시나리오에서는 이러한 상호작용이 복잡성을 더욱 증가시킨다. 현재 물체 6DoF 추정 방법은 크게 다음과 같이 분류된다: (1) 템플릿 기반 방법은 사전 정의된 CAD 모델에 의존하며 세그멘테이션 마스크 및 깊이 맵과 같은 보조 입력을 사용한다; (2) 템플릿 없는 방법은 CAD 모델 없이 6DoF 자세를 추정하고 종종 RGB-D 입력과 세그멘테이션 마스크에 기반한 물체 메시를 재구성한다. 그러나 이러한 접근법들은 종종 계산 비용이 많이 들고 잡음, 가림 및 동적 조건에서 견고성을 유지하는 데 어려움을 겪는다.
6DoF 추정 방법을 바탕으로 HOI 추정은 추가적인 도전 과제인 손 자세를 추정함으로써 확장한다. 템플릿 기반 방법은 손 자세와 물체 6DoF만을 추정하며, 템플릿 없는 방법은 손 자세, 물체 6DoF 및 물체 메시 재구성을 공동로 추론한다. 그러나 공동 추론의 이점을 누리면서도 HOI 방법들은 심각한 가림, 동적인 카메라 움직임 및 복잡한 손-물체 상호작용과 같은 고유한 도전 과제에 직면해 있다. ContactOpt와 GraspTTA는 [[IMG_PROTECT_N]] 접촉 손실을 최적화하여 손-물체 접촉 히트맵을 예측 또는 생성함으로써 HOI 결과를 더 잘 구축한다. DiffHOI 및 G-HOP도 차별 가능한 렌더링과 확산 모델 사전에 의해 안내되는 암시적 SDF 필드를 활용하여 물체 메시 재구성을 달성한다. 또한 이러한 방법들은 종종 단일 프레임 추정에 의존함으로써 실제 조건에서의 시간 일관성이 부족하고 불안정한 동작 재구성을 초래한다.
이러한 제한점을 해결하기 위해 우리는 전체 신체 확산 사전 모델과 통합된 월드스페이스 표현을 도입하여 견고하고 시간적으로 일관된 손 자세 추정, 물체 6DoF 추적 및 메시 재구성을 가능하게 한다. [[IMG_PROTECT_N]]
동작 사전 모델의 자세 추정
이상의 모든 손만 추정 방법은 중요한 한계를 가지고 있다: 과도한 자유도 수. 이러한 고차원성으로 인해 이들 방법은 다양한 잡음에 매우 민감하며, 손 방향 및 위치 드리프트, 깊이 모호성 및 심지어 왼손-오른손 오류 분류를 초래한다. 이러한 문제들은 균형적인 세계 좌표계 손 메시 재구성을 근본적으로 방해한다.
VPoser는 대규모 MoCap 데이터를 사용하여 SMPL-X 매개변수에 대한 자세 사전 신경망을 학습하고 인간 동작의 통계적 규칙성에 더 잘 부합하도록 제약한다. RoHM은 확산 모델을 활용하여 데이터 기반 동작 사전을 암시적으로 사용한다. LatentHOI, DiffHOI 및 G-HOP도 확산 모델을 학습하여 HOI 생성 및 재구성을 위한 사전을 제공한다.
마찬가지로 우리는 분리된 사전 모델을 구성하는데, 이는 전체 신체 동작 확산 모델과 HOI 확산 모델을 포함하며, 전체 신체 자세는 제1인칭 사전을 명시적으로 활용하여 운동 법칙에 부합하는 팔을 통해 손을 제약한다.
방법
style="width:98.0%" />
EgoGrasp의 전체 프레임워크. 우리는 동적인 카메라를 사용한 제1인칭 단일 카메라 동영상에서 세계 좌표계 손-물체 상호작용을 복원하기 위한 세 단계 파이프라인을 제안한다: (1) 공간 인식 모델을 통해 3D 속성을 추출; (2) 전체 신체 지도 동작 확산을 통한 HOI 재구성; (3) 공간, 시간 및 접촉 일관성을 위한 테스트 시 최적화.
문제 정의
제1인칭 동영상 $`V \in \mathbb{R}^{T \times H \times W \times 3}`$가 주어진 경우, 우리는 이중 손과 물체의 세계 좌표계 운동을 정확하게 재구성하려고 한다. 이전 방법이 왼손과 오른손을 별도로 재구성하는 것과 달리, 전체 신체 동작을 재구성하여 이중 손의 범위를 제약한다: 손 자세 $`\{\theta_l^t, \theta_r^t \in \mathbb{R}^{15 \times 3}\}_{t=0}^{T}`$, 신체 자세 $`\{\theta_b^t \in \mathbb{R}^{21 \times 3}\}_{t=0}^{T}`$, 베타 $`\{\beta^t \in \mathbb{R}^{10}\}_{t=0}^{T}`$, 전역 방향 $`\{\phi_t^i \in \mathbb{R}^3\}_{t=0}^{T}`$, 전역 루트 변위 $`\{\gamma_t^i \in \mathbb{R}^3\}_{t=0}^{T}`$. 물체 $`j`$에 대해서는 세계 좌표계에서 메시 $`M_j`$와 전역 궤적 $`\left\{ d_j^t \in \mathrm{SE}(3) \right\}_{t=0}^{T}`$를 재구성한다.
제안된 프레임워크는 세 가지 주요 부분으로 구성된다: (1) 제1인칭 동영상 전처리 파이프라인은 비디오에서 초기 3D 속성을 추출하고, (2) HOI에 대한 분리된 전체 신체 확산 모델은 추출한 3D 속성 기반으로 합리적인 전체 신체 자세를 생성하여 손 자세와 물체 6DoF를 제약하며, (3) 추출된 3D 속성을 기반으로 확산 모델의 결과를 최적화하는 후처리. 제안된 프레임워크의 개요는 [[IMG_PROTECT_N]] 에서 시각적으로 표현된다.
제1인칭 동영상 전처리
2차원 및 3차원 분야는 최근 몇 년간 많은 연구가 이루어져 다양한 하위 분야에서 뛰어난 작업들이 등장했다. 세계 좌표계 HOI 재구성은 매우 어려운 3D 작업으로, 기존의 고급 방법을 활용하여 체계적인 제1인칭 동영상 전처리 파이프라인을 구축해야 한다. 이를 통해 작업에 필요한 충분하고 정확한 3D 사전 지식과 데이터 속성을 제공한다. 세계 좌표계 HOI (Human-Object Interaction) 재구성의 전처리 파이프라인은 세 가지 주요 단계로 구성된다: 전체 장면 복원, 손 복원 및 물체 복원. 각 단계는 최신 방법을 결합하여 제1인칭 동영상을 처리하고 하류 작업에 충분하고 정확한 3D 데이터를 보장한다.
첫 번째 단계에서는 전체 장면을 복원하는데, 카메라 매개변수와 깊이 맵을 포함한다. 우리는 $`\pi^3`$을 사용하여 카메라 내부 매개변수 $`\mathbf{K}`$(정규화된 초점 거리 및 로컬 3D 점에서 추정한 깊이 이동을 통해 얻어짐)를 추론하고, 외부 매개변수 $`\mathbf{E}^t`$는 회전 $`\mathbf{R} \in \mathrm{SO}(3)`$ 및 변위 $`\mathbf{T} \in \mathbb{R}^3`$, 그리고 전체 동영상 시퀀스에 대한 초기 깊이 맵 $`D_{\text{raw}}^t`$를 나타낸다. $`\pi^3`$으로 생성된 깊이 맵은 종종 잡음이 많고 정밀도가 부족하므로, Prompt Depth Anything(PromptDA)을 사용하여 깊이 맵을 최적화하고 더 높은 품질의 깊이 $`D^t`$를 생성한다.
두 번째 단계에서는 각 동영상 프레임에 대한 손 자세 복원에 초점을 맞추며, 첫 번째 단계에서 추정한 전체 장면을 공리적 스케일로 재조정하고 지면 방향을 추정한다. 이를 위해 SOTA 손 자세 추정 방법 WiLoR와 첫 번째 단계에서 얻은 카메라 내부 매개변수 $`\mathbf{K}`$를 사용하여 왼손 및 오른손 자세 $`\theta_{lp}^t, \theta_{rp}^t \in \mathbb{R}^{15 \times 3}`$을 추정한다. 다음으로 첫 번째 단계에서 깊이 맵과 카메라 변위를 MANO 깊이로부터 렌더링된 공리적 스케일로 재조정한다. 또한 Language Segment-Anything(LangSAM)을 사용하여 지면, 테이블톱 및 비디오에 나타날 수 있는 유사한 특징을 분할한다. 이를 통해 이 세그멘테이션과 깊이 맵을 결합하고 RANSAC 알고리즘을 적용하여 수평 표면을 맞춘다.