흐름 매칭 기반 단일 이미지 3D 포즈 추정

흐름 매칭 기반 단일 이미지 3D 포즈 추정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FMPose3D는 2D 관절 좌표를 조건으로 흐름 매칭(Flow Matching) 기법을 이용해 확률적 3D 포즈 분포를 학습한다. ODE 기반의 속도장으로 빠른 샘플링이 가능하며, 다중 가설을 생성한 뒤 재투영 오류를 활용한 베이지안 기대값 집계(RPEA) 모듈로 단일 정확한 3D 포즈를 얻는다. 인간 및 동물 데이터셋에서 기존 최첨단 방법들을 능가한다.

상세 분석

본 논문은 단일 이미지에서 3D 관절 위치를 추정하는 문제를 “조건부 분포 전송”으로 재정의한다. 기존의 확산 기반 방법들은 SDE 기반의 다단계 디노이징 과정을 필요로 해 추론 시간이 길었다. 저자는 대신 Flow Matching(FM)을 채택해 ODE 형태의 결정론적 속도장을 학습한다. 구체적으로, 표준 정규분포에서 시작한 노이즈 샘플 x₀와 실제 3D 포즈 x₁ 사이를 선형 보간하여 중간 상태 xₜ를 만든 뒤, 그 경로의 순간 속도 vₜ = x₁ – x₀를 목표값으로 삼는다. 네트워크 v_θ(xₜ, t, c)는 이 목표 속도를 예측하도록 L₂ 손실로 학습된다. 학습이 끝난 후에는 초기 노이즈를 샘플링하고 ODE를 몇 단계(보통 4~6 단계)만 적분하면 2D 입력 c에 조건화된 3D 포즈 분포 p_θ(x|c)에서 샘플을 얻을 수 있다. 이 과정은 전통적인 확산 모델에 비해 10배 이상 빠르며, 결정론적이지만 서로 다른 노이즈 시드에 따라 다양한 가설을 생성한다.

다중 가설을 단일 예측으로 압축하기 위해 제안된 RPEA는 베이지안 의사결정 이론에 기반한다. 후방 기대값(E


댓글 및 학술 토론

Loading comments...

의견 남기기