두 손 3D 복원을 위한 2D 다중프라이어 통합·침투 방지 확산 모델
초록
본 논문은 단일 RGB 이미지에서 두 손을 3D로 복원할 때 발생하는 2D‑3D 정렬 오류와 손 간 침투 문제를 해결한다. 2D 구조적 프라이어(키포인트·세그멘테이션·깊이)를 비전 파운데이션 모델에서 추출해 경량 Fusion Alignment Encoder로 암묵적으로 융합하고, 3D 단계에서는 침투된 자세를 물리적으로 타당한 무침투 자세로 변환하는 Diffusion 모델을 제안한다. 다중 프라이어 정렬과 충돌 그라디언트 가이드를 결합해 Occlusion에 강인하면서도 실제와 유사한 두 손 상호작용을 구현한다. InterHand2.6M·HIC·FreiHAND 등에서 최첨단 성능을 기록한다.
상세 분석
본 연구는 두 손 3D 복원이라는 고난이도 문제를 “2D 구조 정렬”과 “3D 공간 상호작용 정렬”이라는 두 단계로 명확히 분리하고, 각각에 특화된 모듈을 설계한 점이 가장 큰 혁신이다. 첫 번째 단계에서는 기존 방법들이 2D 프라이어를 별도 네트워크로 추출해 연산 비용과 파라미터 부담을 안고 있었던 반면, 저자는 Sapiens와 같은 대형 비전 파운데이션 모델에서 제공하는 키포인트, 세그멘테이션, 깊이 정보를 Fusion Alignment Encoder (FAE) 로 압축한다. FAE는 학습 시에만 파운데이션 모델의 잠재 출력을 MSE 기반으로 distill하고, 추론 시에는 완전히 제거돼 경량화된 인코더‑프리 배포가 가능하다. 이 접근은 “프라이어를 명시적으로 입력하지 않으면서도 프라이어의 구조적 지식을 내재화”한다는 점에서 비용‑효율성 측면에서 큰 장점을 제공한다.
두 번째 단계인 3D 공간 정렬에서는 기존의 Diffusion 기반 정규화(예: InterHandGen)가 단순히 출력 품질을 향상시키는 수준에 머물렀던 것을 넘어, 두 손 침투‑프리 Diffusion 모델을 설계한다. 여기서는 침투된 손 자세(노이즈가 가미된 혹은 저성능 추정기로부터 생성된)를 조건으로 받아, 역확산 과정에서 Collision Gradient Guidance를 적용한다. 구체적으로는 매 denoising step마다 현재 손 메쉬의 정점 간 Chamfer 거리와 정규화 벡터의 코사인 유사도를 이용해 충돌 집합 Ccol을 정의하고, Geman‑Moore‑Fisher (GMoF) 손실을 통해 충돌을 최소화한다. 이때 IoU와 침투 여부를 사전 검사해 불필요한 Diffusion 연산을 건너뛰는 효율적인 파이프라인도 포함한다.
기술적 구현 측면에서, FAE는 키포인트, 세그멘테이션, 깊이 각각의 특징 맵 Fk, Fs, Fd를 선형 투영 레이어 Pproj에 통합해 fused prior feature Fp를 만든 뒤, Transformer Encoder와 결합해 최종 손 파라미터를 예측한다. 손 파라미터는 MANO 모델 기반이며, L1 손실과 함께 prior alignment loss(Lprior)로 학습된다. 3D Diffusion은 DDIM 샘플링을 기반으로 하며, 손 메쉬 정점 Vt와 Vc를 이용해 충돌 손실을 계산한다. 충돌 감지 기준으로는 거리 임계값 d와 법선 각도 임계값 θth를 사용해 정밀하게 충돌을 판별한다.
실험 결과는 InterHand2.6M, HIC, FreiHAND 세 데이터셋에서 기존 최첨단 방법들을 능가한다. 특히 손 간 침투 비율이 크게 감소했으며, 2D 프라이어를 활용한 정렬 정확도도 눈에 띄게 향상되었다. Ablation study에서는 FAE 없이 직접 프라이어를 입력했을 때 연산량이 2배 이상 증가하고 정확도는 떨어지는 것을 확인했으며, Collision Gradient Guidance 없이 Diffusion만 사용했을 때도 침투 억제 효과가 현저히 낮았다.
한계점으로는 (1) 프라이어를 추출하는 파운데이션 모델 자체가 사전 학습된 데이터에 편향될 수 있어, 매우 드문 손 동작이나 비표준 카메라 설정에서는 성능 저하가 예상된다. (2) Diffusion 단계는 여전히 여러 denoising 스텝을 필요로 하며, 실시간 응용(예: AR/VR)에서는 추가 최적화가 요구된다. (3) 현재는 두 손만을 대상으로 했지만, 손-물체 상호작용이나 다중 사람 상황으로 확장하려면 추가적인 물리적 제약 모델링이 필요하다.
종합하면, 본 논문은 다중 2D 프라이어의 효율적 통합과 물리 기반 3D 충돌 회피 Diffusion라는 두 축을 결합해, 복잡한 Occlusion 환경에서도 정확하고 물리적으로 일관된 두 손 3D 복원을 가능하게 만든 중요한 연구이다.
댓글 및 학술 토론
Loading comments...
의견 남기기