앵커HOI: 앵커 기반 사전 지식 증류를 통한 제로샷 4D 인간 객체 상호작용 생성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

대규모 4D HOI 데이터 부족 문제를 해결하기 위해, AnchorHOI는 이미지와 비디오 확산 모델의 하이브리드 사전 지식을 활용한 제로샷 생성 프레임워크를 제안합니다. 고차원 최적화의 어려움을 극복하기 위해 ‘앵커 NeRF’와 ‘앵커 키포인트’라는 두 가지 중간 매개체를 도입하여 표현력 있는 상호작용 구성과 현실적인 모션 합성을 가능하게 합니다.

상세 분석

본 논문이 해결하고자 하는 근본적인 문제는 대규모 4D 인간-객체 상호작용(HOI) 데이터셋의 희귀성입니다. 기존 지도 학습 방식은 이로 인해 확장성과 다양성이 심각하게 제한됩니다. 최근 등장한 제로샷 접근법은 사전 학습된 이미지 확산 모델을 활용하지만, 생성 과정에서 충분한 상호작용 단서를 증류하지 못해 다양한 시나리오 적용에 한계가 있습니다.

AnchorHOI의 핵심 혁신은 ‘앵커 기반 사전 지식 증류(Anchor-based Prior Distillation)’ 전략입니다. 이는 고차원의 4D HOI 파라미터를 이미지/비디오 확산 모델의 사전 지식 공간에 직접 매핑하는 어려운 문제를, 중간 ‘앵커’를 구축하고 이를 통해 목표 생성을 유도하는 2단계 접근법으로 우회합니다. 구체적으로 두 가지 맞춤형 앵커를 설계했습니다.

첫째, 앵커 NeRF는 정적 상호작용 구성 문제를 해결합니다. NeRF는 복잡한 매개변수 인간 모델(SMPL-X)보다 이미지 확산 모델로부터 시각적 상호작용 사전 지식을 증류하는 데 더 효과적인 표현입니다. 논문은 먼저 텍스트 프롬프트로부터 조악한 인간-객체 결합 NeRF를 생성한 후, 인간 부분을 분리하여 앵커 NeRF로 사용합니다. 이후, 이 앵커 NeRF에서 검출한 2D 골격 키포인트와 SMPL-X 모델의 3D 관절 위치를 정렬함으로써, 확산 모델에서 직접 얻기 어려운 상호작용별 인간 포즈를 최적화합니다.

둘째, 앵커 키포인트는 동적 모션 합성 문제를 해결합니다. 비디오 확산 모델로 생성된 영상은 구성적 장면에서 객체 간 가림 현상이 심해, 접촉 지점과 같은 중요한 모션 정보를 추출하기 어렵습니다. 논문은 신체 키포인트와 (객체와의) 접촉 키포인트를 결합한 ‘앵커 키포인트’를 정의합니다. 이 키포인트들은 가려진 영역에서도 강건하게 트래킹될 수 있어, 비디오 확산 모델의 출력에서 직접 신뢰할 수 있는 상호작용 운동을 추출하는 데 이상적인 매개체 역할을 합니다.

이러한 설계를 통해 AnchorHOI는 기존 방법(AvatarGO 등)이 피해왔던 인간 관절 최적화 및 구성적 모션 추출이라는 두 가지 핵심 난제를 동시에 해결하며, 제로샷 4D HOI 생성의 표현력과 일반화 능력을 크게 향상시켰습니다.

앵커HOI: 앵커 기반 사전 지식 증류를 통한 제로샷 4D 인간 객체 상호작용 생성

초록

상세 분석

댓글 및 학술 토론

의견 남기기