다중모달 포인트 클라우드 기반 동적 대응 상태공간 모델 HandMCM으로 3D 손 자세 추정 혁신
초록
HandMCM은 RGB‑D 이미지와 3D 포인트 클라우드를 결합한 다중모달 입력을 활용하고, 최신 상태공간 모델인 Mamba를 기반으로 한 ‘Correspondence Mamba’ 모듈을 도입해 손 관절 간의 동적 운동학적 관계를 학습한다. 로컬 기하 정보 주입·필터링과 양방향 SSM을 통해 심한 자체·물체 가림 상황에서도 정확한 3D 손 키포인트를 복원한다. NYU, DexYCB, HO3D 벤치마크에서 기존 최첨단보다 월등히 낮은 평균 거리 오차를 기록하였다.
상세 분석
본 논문은 3D 손 자세 추정 분야에서 가장 난제인 자체 가림 및 손‑물체 상호작용에 의한 가림 문제를 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫째, 다중모달 슈퍼 포인트 인코더를 통해 깊이 이미지, RGB 이미지, 그리고 3D 포인트 클라우스에서 추출한 로컬 기하 특징을 하나의 고밀도 포인트 집합으로 융합한다. 이 과정에서 PointNet‑계열의 로컬 3D 인코더와 ResNet 기반 2D 자동인코더를 사용해 각각의 모달리티에서 풍부한 시각·깊이 정보를 얻고, 2D‑3D 투영·보간을 통해 3D 공간에 정렬한다. 둘째, Mamba 기반의 ‘Correspondence Mamba’ 블록을 설계하여 키포인트 토큰 간의 동적 운동학적 대응을 상태공간 모델(SSM)로 모델링한다. 양방향 게이트 SSM(BiGS)을 적용해 토큰 시퀀스를 전·후 방향으로 처리하고, 외적 연산을 통해 키포인트 쌍 간의 상관 맵을 생성한다. 이 상관 맵은 토큰의 고차원 표현에 곱해져 업데이트되며, 최종적으로 선형 변환을 거쳐 3D 좌표로 디코딩된다. 또한, 로컬 토큰 주입·필터링 메커니즘을 도입해 각 키포인트 주변의 k‑NN 슈퍼 포인트와 그 기하·시각 특징을 결합함으로써, 전역적인 동적 대응뿐 아니라 미세한 로컬 정보를 보강한다. 이러한 설계는 기존 그래프 기반 정적 관계 모델이 갖는 표현 제한을 극복하고, 긴 시퀀스에서도 효율적인 연산을 가능하게 하는 Mamba의 선형 스케일링 특성을 활용한다. 실험 결과는 NYU(7.06 mm), DexYCB(6.67 mm), HO3D(1.71 cm)에서 기존 SOTA보다 현저히 낮은 오류를 보이며, 특히 심한 가림 상황에서의 강인성을 입증한다. 코드 공개와 상세한 ablation 연구를 통해 각 모듈의 기여도를 정량화했으며, 향후 손‑물체 상호작용 및 증강현실 응용에 바로 적용 가능한 실용성을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기