합성 시연을 통한 일반화 가능한 손 물체 추적 학습
초록
본 논문은 물리 기반 시뮬레이션으로 생성한 대규모 합성 데이터와 도메인 랜덤화 기법을 활용해, 실제 환경에서도 강인하게 동작하는 손‑물체 6‑DoF 추적 모델을 학습한다. 합성 시연에서 얻은 시퀀스 레이블을 이용해 시계열 네트워크와 포즈 정규화 모듈을 공동 학습하고, 실제 영상에 대한 적은 양의 라벨 없이도 자기 지도식 미세조정을 수행한다. 실험 결과, HO‑3D, DexYCB, FPHA 등 다양한 벤치마크에서 최첨단 방법들을 능가하며, 합성‑실제 간 격차를 크게 줄였다.
상세 분석
이 연구는 손‑물체 상호작용 트래킹이라는 복합 문제에 대해 두 가지 핵심적인 접근을 제시한다. 첫째, 물리 엔진과 고해상도 3D 모델을 이용해 손과 물체가 동시에 움직이는 시연 데이터를 대량으로 생성한다. 여기서는 조명, 배경, 카메라 파라미터, 손 모양, 물체 종류, 접촉 강도 등을 무작위로 변형하는 도메인 랜덤화 전략을 적용해, 합성 데이터가 실제 환경의 다양성을 충분히 포괄하도록 설계하였다. 둘째, 생성된 시연을 기반으로 시계열 기반의 트랜스포머 인코더와 3D 포즈 정규화 네트워크를 결합한 구조를 도입한다. 트랜스포머는 연속 프레임 간의 동적 정보를 효과적으로 통합해 일관된 추적을 가능하게 하며, 포즈 정규화 모듈은 손과 물체의 상대적인 변환을 학습하면서 관절 가시성 손실을 보완한다. 또한, 실제 데이터에 대한 라벨이 부족한 상황을 고려해, 합성 모델을 초기화한 뒤 자기 지도식 손‑물체 재구성 손실과 시계열 일관성 손실을 동시에 최소화하는 미세조정 단계가 포함된다. 이 단계는 실제 영상에서 발생하는 노이즈와 비선형 왜곡을 자동으로 보정하도록 설계돼, 도메인 간 격차를 최소화한다. 실험에서는 합성 데이터만으로 사전 학습한 모델이 실제 데이터에 바로 적용될 경우 평균 오류가 30 mm 수준이었으나, 제안된 자기 지도식 미세조정을 거치면 12 mm 이하로 감소한다는 점을 보여준다. 또한, 기존 최첨단 방법 대비 15 % 이상의 정확도 향상을 기록했으며, 실시간 처리 속도(≈30 FPS)도 유지한다. 이러한 결과는 합성 시연이 실제 손‑물체 추적 시스템 구축에 있어 비용 효율적인 대안이 될 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기