깊이 안내형 메트릭 인식 비디오 인간 메쉬 복원
초록
본 논문은 단일 카메라 영상에서 인간 메쉬를 복원할 때 발생하는 깊이 모호성·스케일 드리프트·시간적 불안정을 해결하기 위해, 깊이 정보를 활용한 다중 스케일 융합, 메트릭‑aware 초기화(D‑MAPS), 그리고 모션‑깊이 정렬 정제(MoDAR)라는 세 가지 모듈을 제안한다. 깊이 가이드형 게이트와 신뢰도 기반 가중치를 통해 RGB와 깊이 특징을 효과적으로 결합하고, 뼈 길이 통계와 깊이 신뢰도를 이용해 절대적인 스케일을 유지한다. 실험 결과 3DPW, Human3.6M, MPI‑INF‑3DHP 등 주요 벤치마크에서 기존 최첨단 방법들을 능가하며, 특히 심한 가림 상황과 빠른 움직임에서 강인함을 보인다.
상세 분석
이 논문은 단일 카메라 비디오 기반 인간 메쉬 복원의 근본적인 한계인 “깊이·스케일 불확실성”을 직접적인 기하학적 제약으로 전환한다는 점에서 혁신적이다. 첫 번째 모듈인 Depth‑Guided Multi‑Scale Fusion(DMFS)은 기존 RGB‑only 파이프라인에 깊이 특징을 단순히 연결하는 것이 아니라, Depth Anything v2 로부터 추출한 중간 활성화를 경량 컨볼루션·업샘플링 후, 1×1 컨볼루션과 시그모이드로 만든 마스크 Mₜ를 통해 RGB 특징에 요소별 가중치를 부여한다. 여기서 채널‑별 게이트 qᵣ, q_d 를 동적으로 학습함으로써 깊이 신호의 신뢰도에 따라 융합 비율을 조절한다는 설계는, 노이즈가 많은 깊이 추정값이 오히려 성능을 저하시키는 위험을 최소화한다.
두 번째 핵심인 D‑MAPS는 “Metric‑Aware Pose‑Shape” 초기화를 제공한다. 뼈 길이 B(i,j)를 깊이 신뢰도 wₜ 로 가중 평균한 후, 사전 학습된 평균 뼈 길이 \overline{B}와 선형 보간(α)하여 보정한다. 이 과정은 SMPL 템플릿을 실제 카메라‑인간 거리와 일치하도록 스케일링하고, 이를 기반으로 shape 파라미터 s_init 을 MLP 로 회귀한다. 결과적으로 초기 단계부터 절대적인 메트릭 스케일이 확보되어, 이후 temporal smoothing 단계에서 스케일 드리프트가 거의 발생하지 않는다.
세 번째 모듈 MoDAR는 Motion‑Depth Aligned Refinement이다. 초기화된 (p_init, s_init) 을 motion token (DSTformer 로부터 얻은 3D 관절 시퀀스)와 fused feature ˜Fₜ 사이의 cross‑attention 으로 정제한다. 양방향 attention 블록을 두 번 쌓아 motion ↔ depth 정보의 상호 보완을 강화하고, residual head 와 causal filter 로 고주파 진동을 억제한다. 특히 gₜ = σ(W F′ₜ) 로 얻은 게이트가 각 프레임의 업데이트 양을 조절함으로써, 급격한 움직임에서는 충분히 반응하고, 정적인 구간에서는 과도한 스무딩을 방지한다.
실험에서는 3DPW에서 MPJPE 69.31 mm, PA‑MPJPE 46.68 mm, MPVPE 82.61 mm, Accel 7.14 mm/s² 로 기존 최고 성능을 앞선다. Ablation 결과는 각 모듈이 독립적으로는 미세한 개선에 그치지만, 결합될 때 시너지 효과가 나타남을 보여준다. 특히 “Mask‑guided fusion”과 “Quality‑aware depth”만 적용해도 MPJPE가 73.12 mm 로 크게 감소했으며, D‑MAPS와 MoDAR를 동시에 사용할 때 최종 성능이 최고에 도달한다.
한계점으로는 깊이 추정 모델에 대한 의존도가 높아, 극단적인 조명 변화나 반사면에서 깊이 오류가 발생하면 전체 파이프라인에 영향을 줄 수 있다. 또한 현재는 SMPL 기반 메쉬에 국한되며, 비표준 의복·소품을 포함한 복잡한 장면에서는 추가적인 파라미터화가 필요할 것으로 보인다. 향후 연구에서는 self‑supervised 깊이 정제와 다중 인물 시나리오에 대한 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기