온라인 4D 손과 장면 재구성 Hand3R

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Hand3R는 단일 RGB 비디오 스트림에서 손의 정밀한 메쉬와 메트릭 스케일의 밀집 장면을 동시에 온라인으로 재구성하는 최초의 프레임워크이다. 사전 학습된 손 전문가와 4D 장면 기반 모델을 시각적 프롬프트로 연결해, 한 번의 순전파만으로 전역 좌표계에서의 손 궤적과 장면 지오메트리를 얻는다. 실험 결과 DexYCB와 HOI4D에서 기존 방법과 동등하거나 우수한 성능을 보이며, 오프라인 최적화 없이 실시간 처리가 가능함을 입증한다.

상세 분석

Hand3R는 두 개의 병렬 스트림, 즉 손 스트림과 장면 스트림으로 구성된 듀얼‑스트림 아키텍처를 채택한다. 손 스트림은 사전 학습된 대규모 비전 트랜스포머 기반 손 전문가(HaMeR)를 고정(frozen)하고, 검출된 손 박스 영역을 크롭한 뒤 고해상도 토큰 f_h를 추출한다. 장면 스트림은 CUT3R 기반 4D 장면 기반 모델의 인코더를 이용해 전체 프레임에서 메트릭 스케일 토큰 F_s를 얻는다. 이후 손 박스 내부의 장면 토큰을 평균 풀링해 지역 환경 컨텍스트 f_s를 만든 뒤, f_h와 f_s를 concat하고 M_prompt라는 작은 MLP에 통과시켜 시각적 프롬프트 p_h를 생성한다. 이 프롬프트는 “손은 어떻게 보이는가”와 “그 손이 장면 내 어느 위치에 존재하는가”를 동시에 인코딩한다는 점에서 핵심적이다.

생성된 p_h는 장면 디코더 D_decoder_s에 입력되어 이전 시점의 지속 메모리 S_{t‑1}와 결합된다. 디코더는 시공간적 히스토리를 유지하면서 p_h를 현재 장면 토큰 F_s와 융합해 새로운 상태 S_t와 융합 토큰 f_fused를 출력한다. 여기서 두 개의 디코딩 헤드가 독립적으로 작동한다. 첫 번째 헤드인 MANO 헤드는 원본 손 토큰 f_h에서 직접 손 포즈(θ)와 형태(β)를 회귀하여, 전역 융합 과정에서 발생할 수 있는 세부 손가락 정보 손실을 방지한다. 두 번째 헤드인 Translation 헤드는 융합 토큰 f_fused를 이용해 전역 좌표계에서의 손 중심 번역 T를 예측한다. 이 설계는 손의 미세한 관절 움직임과 장면의 절대 위치를 각각 최적화할 수 있게 해준다.

학습 단계는 두 단계로 나뉜다. 1단계에서는 DexYCB 데이터셋을 사용해 손 포즈와 메쉬 정밀도를 강화한다. 이때 장면 관련 파라미터는 고정하고, 손 전문가의 MANO 헤드만 미세조정한다. 손의 상대 좌표 J_rel, V_rel에 대한 L2 손실을 적용해 근본적인 손 형태와 관절 구조를 학습한다. 2단계에서는 HOI4D 데이터셋을 이용해 전역 위치와 장면 재구성을 동시에 튜닝한다. 여기서는 번역 손실 L_trans, 절대 3D 관절 손실 L_abs, 2D 키포인트 재투영 손실 L_2D, 그리고 장면 포인트 클라우드·카메라 손실 L_pts, L_cam을 가중치 γ와 함께 결합한다. 이렇게 하면 장면 기하학이 손 위치 학습 과정에서 망가지지 않도록 방지한다.

실험 결과는 두 가지 축에서 평가된다. (1) 로컬 손 메쉬 복원에서는 DexYCB에서 PA‑MPJPE와 AUC 지표가 기존 최첨단 방법인 HaWor와 거의 동등하거나 약간 우수했다. 특히 75‑100% occlusion 구간에서도 5.01 mm 수준의 MPJPE를 기록해 강인성을 입증했다. (2) 전역 손 궤적 재구성에서는 HOI4D에서 C‑MPJPE, W‑MPJPE 등 절대 오류 지표가 오프라인 다단계 파이프라인(예: HaWor, WiLoR‑SLAM)보다 크게 개선되었으며, 온라인‑단일‑스테이지 방식임에도 불구하고 42.6 mm(짧은 비디오)·86.87 mm(긴 비디오) 수준의 오류를 달성했다. 시각적 결과는 손과 물체 간 충돌, 물체와의 접촉 관계를 정확히 포착하며, 다중 손도 동일한 전역 좌표계에서 일관되게 추적한다.

핵심 기여는 (i) 손 전문가와 장면 모델을 시각적 프롬프트로 연결해 한 번의 순전파로 4D 손‑장면을 재구성하는 최초의 온라인 프레임워크, (ii) 지역 손 토큰과 장면 컨텍스트를 결합한 scene‑aware visual prompting 메커니즘, (iii) 손의 미세 관절 정보와 전역 위치 정보를 각각 최적화하도록 설계된 디코딩‑헤드 분리 구조이다. 이러한 설계는 기존의 다단계 SLAM 기반 파이프라인이 갖는 복잡성·지연을 크게 감소시키면서도, 메트릭 스케일 정확도와 손 메쉬 정밀도를 동시에 유지한다는 점에서 임베디드 AI, AR/VR, 인간‑컴퓨터 인터랙션 분야에 큰 파급 효과를 기대한다.

온라인 4D 손과 장면 재구성 Hand3R

초록

상세 분석

댓글 및 학술 토론

의견 남기기