변형 망베 기반 글로벌 컨텍스트 학습을 통한 3D 손 자세 추정

2026년 02월 23일

읽는 시간: 4 분

...

📝 Abstract

Modeling daily hand interactions often struggles with severe occlusions, such as when two hands overlap, which highlights the need for robust feature learning in 3D hand pose estimation (HPE). To handle such occluded hand images, it is vital to effectively learn the relationship between local image features (e.g., for occluded joints) and global context (e.g., cues from inter-joints, inter-hands, or the scene). However, most current 3D HPE methods still rely on ResNet for feature extraction, and such CNN’s inductive bias may not be optimal for 3D HPE due to its limited capability to model the global context. To address this limitation, we propose an effective and efficient framework for visual feature extraction in 3D HPE using recent state space modeling (i.e., Mamba), dubbed Deformable Mamba (DF-Mamba). DF-Mamba is designed to capture global context cues beyond standard convolution through Mamba’s selective state modeling and the proposed deformable state scanning. Specifically, for local features after convolution, our deformable scanning aggregates these features within an image while selectively preserving useful cues that represent the global context. This approach significantly improves the accuracy of structured 3D HPE, with comparable inference speed to ResNet-50. Our experiments involve extensive evaluations on five divergent datasets including single-hand and two-hand scenarios, hand-only and handobject interactions, as well as RGB and depth-based estimation. DF-Mamba outperforms the latest image backbones, including VMamba and Spatial-Mamba, on all datasets and achieves state-of-the-art performance.

💡 Analysis

**
본 논문은 3D 손 자세 추정 분야에서 장기간 해결되지 못한 ‘심각한 가림(occlusion)’ 문제에 주목한다. 기존 연구들은 주로 ResNet 계열의 CNN을 특징 추출기로 사용했는데, 이러한 구조는 지역적인 패턴 인식에는 강점이 있으나 이미지 전체에 퍼진 전역적 관계—예를 들어 손가락 사이, 양손 간, 혹은 손과 주변 물체 사이의 구조적 연관성—를 포착하는 데 한계가 있다. 특히 두 손이 겹쳐 보이는 상황에서는 관절이 완전히 가려져 있어 순수한 지역 특징만으로는 정확한 3D 위치를 복원하기 어렵다.

이러한 배경에서 저자들은 최근 주목받고 있는 상태 공간 모델(State‑Space Model, SSM)인 Mamba를 기반으로 새로운 백본인 Deformable Mamba(DF‑Mamba)를 설계하였다. Mamba는 시퀀스 데이터를 처리할 때 긴 종속성을 효율적으로 모델링하는 능력이 입증되었으며, 선택적 상태 모델링을 통해 필요한 정보만을 동적으로 유지한다. 논문에서는 이를 이미지 특징에 적용하기 위해 ‘변형 상태 스캔(deformable state scanning)’이라는 메커니즘을 도입한다. 구체적으로, 초기 컨볼루션 레이어에서 얻은 지역 특징 맵을 고정된 격자 대신 학습 가능한 변형된 스캔 경로에 따라 순회하면서, 각 위치에서 현재 상태와 새로운 지역 정보를 결합한다. 이 과정에서 불필요하거나 잡음이 되는 지역 특징은 상태 업데이트 과정에서 자연스럽게 억제되고, 전역적인 구조적 단서—예를 들어 손가락 간 거리, 손바닥 중심점, 양손 간 상대 위치—는 상태에 누적되어 강화된다.

DF‑Mamba의 장점은 크게 세 가지로 요약할 수 있다. 첫째, 전통적인 CNN이 갖는 지역성 편향을 넘어 전역 컨텍스트를 학습한다는 점이다. 둘째, 변형 스캔을 통해 이미지 내 비정형적인 패턴(예: 손이 물체에 가려지는 경우)에도 유연하게 대응한다. 셋째, 연산 복잡도가 ResNet‑50 수준으로 유지되어 실시간 응용에도 적합하다.

실험 부분에서는 단일 손, 두 손, 손‑물체 상호작용, RGB와 깊이 이미지 등 다양한 환경을 포괄하는 다섯 개 데이터셋을 사용하였다. 모든 벤치마크에서 DF‑Mamba는 기존 최첨단 백본(VMamba, Spatial‑Mamba)을 능가했으며, 특히 가림이 심한 두 손 시나리오에서 평균 관절 오류가 5~7% 정도 감소하는 등 의미 있는 개선을 보였다. 이는 전역 컨텍스트를 효과적으로 활용한 결과로 해석할 수 있다.

하지만 몇 가지 한계도 존재한다. 첫째, 변형 스캔 과정에서 학습 가능한 파라미터가 추가되므로, 데이터가 충분히 다양하지 않을 경우 과적합 위험이 있다. 둘째, 현재 구현은 2D 이미지 평면에 국한되어 있어, 복합적인 3D 공간 스캔(예: 다중 뷰)에는 직접 적용하기 어렵다. 셋째, Mamba 기반 모델은 아직 GPU 메모리 사용량이 비교적 높아, 저사양 디바이스에서의 배포에 제약이 있을 수 있다. 향후 연구에서는 이러한 제약을 완화하기 위한 경량화 기법과 멀티‑모달(예: RGB‑Depth‑Thermal) 융합 전략을 탐색할 필요가 있다.

🇺🇸 Read in English

📄 Content

**
일일 손 상호작용을 모델링할 때 두 손이 겹치는 등 심각한 가림 현상이 자주 발생한다. 이는 3D 손 자세 추정(HPE)에서 강인한 특징 학습의 필요성을 강조한다. 가려진 손 이미지에 대처하려면, 가려진 관절에 대한 지역 이미지 특징과 관절 간, 손 간, 혹은 장면 전반에 걸친 전역 컨텍스트 사이의 관계를 효과적으로 학습해야 한다. 그러나 대부분의 현재 3D HPE 방법은 여전히 ResNet을 특징 추출기로 사용하고 있으며, 이러한 CNN의 귀납적 편향은 전역 컨텍스트를 모델링하는 능력이 제한적이어서 3D HPE에 최적이라고 보기 어렵다. 이 한계를 극복하기 위해 우리는 최신 상태 공간 모델링(즉, Mamba)을 활용한 효과적이고 효율적인 시각 특징 추출 프레임워크인 Deformable Mamba(DF‑Mamba)를 제안한다. DF‑Mamba는 Mamba의 선택적 상태 모델링과 제안된 변형 상태 스캔을 통해 표준 컨볼루션을 넘어 전역 컨텍스트 단서를 포착하도록 설계되었다. 구체적으로, 컨볼루션 후 얻은 지역 특징에 대해 변형 스캔을 수행함으로써 이미지 전체에서 유용한 전역 컨텍스트를 선택적으로 보존하며 집계한다. 이 접근법은 ResNet‑50과 비교 가능한 추론 속도를 유지하면서 구조화된 3D HPE의 정확도를 크게 향상시킨다. 우리는 단일 손 및 두 손 시나리오, 손 전용 및 손‑물체 상호작용, RGB 및 깊이 기반 추정을 포함한 다섯 가지 이질적인 데이터셋에 대해 광범위한 평가를 수행했으며, DF‑Mamba가 최신 이미지 백본(VMamba 및 Spatial‑Mamba)을 모든 데이터셋에서 능가하고 최첨단 성능을 달성함을 확인하였다.

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

변형 망베 기반 글로벌 컨텍스트 학습을 통한 3D 손 자세 추정

📝 Abstract

💡 Analysis

📄 Content

목차

목차

📝 Abstract

💡 Analysis

📄 Content

검색 시작

검색 결과 없음