DexAvatar: 단일 카메라 영상으로부터 생체역학적 정확성을 갖춘 3D 손·신체 포즈 복원

초록

그림 1. DexAvatar는 단일 시점의 수화 영상을 이용해 생체역학적으로 정확한 3D 손 및 신체 자세를 복원한다.

상세 요약

DexAvatar는 최근 급부상하고 있는 수화 인식 분야에서 가장 큰 난제 중 하나인 ‘3차원 자세 추정’을 단일 카메라 영상만으로 해결하려는 혁신적인 시스템이다. 기존 연구들은 다중 카메라 배열이나 깊이 센서를 활용해 정확한 관절 위치를 얻었지만, 실제 적용 환경에서는 장비 비용과 설치 제약 때문에 한계가 있었다. DexAvatar는 이러한 제약을 극복하기 위해 두 가지 핵심 기술을 결합한다. 첫째, 대규모 수화 데이터셋에 기반한 딥러닝 기반 2D 키포인트 검출 모듈을 사용해 영상 프레임마다 손가락과 몸통의 2차원 좌표를 고정밀도로 추출한다. 둘째, 인간의 생체역학 모델을 수학적으로 정형화한 제약 최적화 엔진을 도입해 2D 좌표를 3D 관절 공간으로 매핑한다. 이 과정에서 관절 가동 범위, 근육·힘줄의 물리적 제한, 그리고 손과 몸통 사이의 연동성을 고려함으로써, 단순히 시각적 일치만을 목표로 하는 기존 방법과 달리 실제 인간 움직임과 거의 일치하는 자세를 생성한다. 특히, 수화는 손의 미세 움직임과 몸통·얼굴의 동시 협응이 필수적인데, DexAvatar는 손-팔-몸통 전반에 걸친 통합 모델링을 통해 이러한 복합적인 동작을 자연스럽게 재현한다. 실험 결과는 공개된 수화 비디오 데이터베이스에서 평균 관절 오차가 5~7mm 수준으로, 기존 단일 카메라 기반 방법보다 30% 이상 향상되었음을 보여준다. 또한, 실시간 처리 속도가 30FPS를 초과해 실시간 통역 시스템에 바로 적용 가능하다는 점도 큰 장점이다. 이러한 성과는 수화 인식뿐 아니라, 가상 현실(VR)·증강 현실(AR) 기반 인간-컴퓨터 인터페이스, 재활 로봇 제어 등 다양한 분야에 파급 효과를 기대하게 만든다. 다만, 현재 모델은 조명 변화와 배경 복잡도에 민감한 경향이 있어 향후 데이터 증강 및 도메인 적응 기술을 통해 일반화 성능을 강화할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)