단일 이미지에서 3D 애니메이션을 위한 프록시 임베딩 기반 제어 가능한 3D 인식 합성

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 정적 이미지로부터 고품질 3D 애니메이션을 생성하기 위해, 거친 3D 구조를 프록시로 활용하고 이미지‑공간 생성 사전학습 모델로 외관을 복원하는 경량 프레임워크를 제안한다. 2D‑3D 정렬 프록시 임베딩을 통해 기하학적 제어와 텍스처 합성을 분리함으로써, 저사양 디바이스에서도 실시간 인터랙티브 편집이 가능하고, 기존 비디오 기반 방법보다 정체성·기하·텍스처 일관성이 크게 향상된다.

상세 분석

3DProxyImg은 “프록시 임베딩”이라는 핵심 아이디어를 중심으로 설계되었다. 먼저 입력 이미지에 대해 단일 뷰 깊이 추정과 최신 3D 생성 모델(HunYuan3D)을 결합해 거친 3D 메쉬와 정밀한 포인트 클라우드(VGGT)를 얻는다. 이 두 결과는 ICP와 마스크 기반 최적화를 통해 좌표계와 스케일을 정밀히 정렬한다(공식 1‑4). 정렬된 포인트는 희소 프록시 노드 집합 V로 다운샘플링되고, 각 노드에 고차원 텍스처 피처 fᵢ를 할당한다. 여기서 위치 인코딩(γ)과 MLP 디코더 Dθ를 이용해 피처를 색상으로 변환함으로써, 전통적인 메쉬 텍스처 매핑보다 높은 주파수 디테일을 복원한다.

렌더링 단계에서는 삼각형을 깊이 순으로 정렬하고, 각 픽셀에 대해 바리센트릭 보간으로 피처를 얻은 뒤 디코더를 통과시켜 최종 RGB를 생성한다. 알려진 뷰에서는 MSE 손실(L_MSE)로 입력 이미지와 일치시키고, 새로운 뷰에서는 2D 확산 모델의 Score Distillation Sampling(SDS) 손실(L_SDS)을 적용한다. SDS는 랜덤 카메라 포즈와 텍스트 프롬프트를 이용해 확산 모델이 제공하는 그래디언트를 통해 프록시 피처와 디코더 파라미터를 최적화한다. 이 두 손실을 가중합(α₁,α₂)해 전체 손실을 정의함으로써, 정밀한 원본 뷰와 다중 뷰 일관성을 동시에 만족한다.

프록시 노드가 삼각망 형태를 유지하므로, 기존 스키닝·리깅 파이프라인을 그대로 적용할 수 있다. 사용자는 특정 노드(예: 관절) 위치를 직접 지정하고, 위치 기반 다이나믹(PBD) 제약을 통해 전체 구조가 물리적으로 일관된 변형을 얻는다. 배경 영역은 별도의 프록시 전파 모듈을 통해 자동 완성되며, 이는 전체 장면의 일관성을 해치지 않는다.

핵심 기여는 다음과 같다. ① 거친 3D 구조와 고품질 2D 생성 사전학습 모델을 효율적으로 결합해, 정확한 기하학 없이도 3D‑aware 애니메이션을 구현한다. ② 희소 프록시 임베딩과 SDS 기반 다중 뷰 텍스처 최적화를 통해, 기존 NeRF‑기반 방법이 요구하는 대규모 멀티뷰 데이터와 높은 연산량을 크게 감소시킨다. ③ 프록시가 메쉬와 유사한 구조를 유지함으로써, 리깅·스키닝·물리 기반 변형을 그대로 활용할 수 있어 인터랙티브 편집이 가능하다. 실험 결과, 저전력 모바일 환경에서도 실시간 수준의 프레임 레이트를 달성했으며, 정체성 보존, 기하·텍스처 일관성, 사용자 제어 정확도 측면에서 비디오‑기반 최신 방법들을 능가한다.

단일 이미지에서 3D 애니메이션을 위한 프록시 임베딩 기반 제어 가능한 3D 인식 합성

초록

상세 분석

댓글 및 학술 토론

의견 남기기