PandaPose: 2D 포즈를 3D 앵커 공간으로 전파해 단일 이미지에서 3D 인간 포즈를 복원하는 혁신적 접근
초록
PandaPose는 2D 포즈 추정 결과를 3D 앵커 공간으로 전달하여, 관절별 적응형 3D 앵커와 깊이 인식 특징을 결합한다. 앵커‑투‑조인트 앙상블 예측을 통해 2D 포즈 오류와 자기‑오클루전에 강인한 3D 포즈 복원을 구현하며, Human3.6M, MPI‑INF‑3DHP, 3DPW에서 기존 최고 성능을 크게 앞선다.
상세 분석
본 논문은 단일 RGB 이미지에서 3D 인간 포즈를 추정하는 기존 방법들의 두 가지 근본적 한계—2D 포즈 입력 오류 전파와 자기‑오클루전 처리의 어려움—를 해결하기 위해 ‘3D 앵커 공간’이라는 중간 표현을 도입한다. 첫 번째 핵심은 관절별 로컬 3D 앵커를 2D 포즈 정규화 좌표에 선형 변환하여 동적으로 생성하고, 전역 고정 앵커와 결합해 안정성을 확보한 점이다. 이렇게 생성된 앵커는 각 관절 주변에 밀집된 초기 3D 위치 후보를 제공함으로써 입력 2D 포즈의 잡음에 대한 내성을 크게 향상시킨다. 두 번째 핵심은 ‘관절‑별 깊이 분포 추정’이다. 전체 깊이 맵 대신 각 관절에 대한 독립적인 깊이 확률 분포를 예측하고, 실제 관절 깊이값을 희소 지도 형태로 감독한다. 이는 동일 2D 투영 상에 겹쳐 보이는 관절들의 깊이 모호성을 효과적으로 해소한다. 세 번째로, 2D 포즈를 이용한 특징 샘플링 전략을 적용해 이미지 피라미드에서 관절 위치 주변의 시각적 특징만을 추출, 배경 노이즈와 메모리 사용량을 최소화한다. 추출된 시각 특징은 앞서 예측된 깊이 임베딩과 결합돼 3D 앵커 공간으로 리프팅된다. 마지막으로, 학습 가능한 앵커 쿼리(Q_anchor)를 Transformer‑유사 디코더에 입력해 ‘앵커‑특징 상호작용’ 과정을 수행한다. 교차‑어텐션을 통해 각 앵커 쿼리는 시각·깊이·기하학적 정보를 통합한 ‘통합 앵커 쿼리’를 얻게 되고, 이를 기반으로 앵커‑투‑조인트 오프셋과 가중치를 예측한다. 최종 3D 관절 위치는 앵커 위치에 오프셋을 더하고, 가중치 기반 앙상블을 수행해 산출한다. 실험 결과, Human3.6M에서 PA‑MPJPE를 14.7 % 감소시켰으며, 특히 오클루전이 심한 상황에서 MPJPE를 11.3 % 개선했다. Ablation 연구를 통해 적응형 앵커, 관절‑별 깊이 분포, 그리고 특징 샘플링 각각이 성능 향상에 기여함을 입증하였다. 전체적으로 PandaPose는 2D‑to‑3D 매핑을 일대일 직접 변환에서 ‘앵커 기반 집합 예측’으로 전환함으로써 오류 전파를 억제하고, 깊이 인식 특징을 통해 자기‑오클루전을 효과적으로 처리한다는 점에서 의미 있는 진보를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기