Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models

Reading time: 4 minute
...
Featured Image

📝 Abstract

The ability to generate diverse 3D articulated head avatars is vital to a plethora of applications, including augmented reality, cinematography, and education. Recent work on text-guided 3D object generation has shown great promise in addressing these needs. These methods directly leverage pre-trained 2D text-to-image diffusion models to generate 3D-multi-view-consistent radiance fields of generic objects. However, due to the lack of geometry and texture priors, these methods have limited control over the generated 3D objects, making it difficult to operate inside a specific domain, e.g., human heads. In this work, we develop a new approach to text-guided 3D head avatar generation to address this limitation. Our framework directly operates on the geometry and texture of an articulable 3D morphable model (3DMM) of a head, and introduces novel optimization procedures to update the geometry and texture while keeping the 2D and 3D facial features aligned. The result is a 3D head avatar that is consistent with the text description and can be readily articulated using the deformation model of the 3DMM. We show that our diffusion-based articulated head avatars outperform state-of-the-art approaches for this task. The latter are typically based on CLIP, which is known to provide limited diversity of generation and accuracy for 3D object generation.

💡 Analysis

The ability to generate diverse 3D articulated head avatars is vital to a plethora of applications, including augmented reality, cinematography, and education. Recent work on text-guided 3D object generation has shown great promise in addressing these needs. These methods directly leverage pre-trained 2D text-to-image diffusion models to generate 3D-multi-view-consistent radiance fields of generic objects. However, due to the lack of geometry and texture priors, these methods have limited control over the generated 3D objects, making it difficult to operate inside a specific domain, e.g., human heads. In this work, we develop a new approach to text-guided 3D head avatar generation to address this limitation. Our framework directly operates on the geometry and texture of an articulable 3D morphable model (3DMM) of a head, and introduces novel optimization procedures to update the geometry and texture while keeping the 2D and 3D facial features aligned. The result is a 3D head avatar that is consistent with the text description and can be readily articulated using the deformation model of the 3DMM. We show that our diffusion-based articulated head avatars outperform state-of-the-art approaches for this task. The latter are typically based on CLIP, which is known to provide limited diversity of generation and accuracy for 3D object generation.

📄 Content

다양한 3D 관절형 머리 아바타를 생성할 수 있는 능력은 증강 현실, 영화 촬영, 교육 등 수많은 응용 분야에서 필수적이다. 최근 텍스트 기반 3D 객체 생성에 관한 연구는 이러한 요구를 충족시킬 수 있는 큰 가능성을 보여주었다. 이러한 방법들은 사전 학습된 2D 텍스트‑투‑이미지 확산 모델을 직접 활용하여 일반적인 객체의 3D‑다중‑시점 일관성을 갖는 복사장(radiance field)을 생성한다. 그러나 기하학 및 텍스처에 대한 사전 지식이 부족하기 때문에, 이들 방법은 생성된 3D 객체에 대한 제어가 제한적이며, 특히 인간 머리와 같은 특정 도메인 안에서 작업하기가 어렵다.

본 연구에서는 이러한 한계를 극복하기 위해 텍스트‑가이드 3D 머리 아바타 생성에 대한 새로운 접근 방식을 제시한다. 우리의 프레임워크는 관절이 가능한 3D 형태 변형 모델(3DMM)의 기하학과 텍스처를 직접 다루며, 2D와 3D 얼굴 특징을 정렬된 상태로 유지하면서 기하학과 텍스처를 업데이트하는 새로운 최적화 절차를 도입한다. 그 결과, 텍스트 설명과 일치하면서도 3DMM의 변형 모델을 이용해 손쉽게 관절을 움직일 수 있는 3D 머리 아바타가 생성된다. 우리는 확산 기반 관절형 머리 아바타가 이 작업에 대한 최신 최첨단 접근법보다 우수한 성능을 보인다는 것을 실험을 통해 입증한다. 후자들은 일반적으로 CLIP을 기반으로 하는데, CLIP은 3D 객체 생성에 있어서 다양성 및 정확도 측면에서 제한적인 성능을 제공하는 것으로 알려져 있다.

우리의 시스템은 먼저 텍스트 프롬프트를 입력받아, 사전 학습된 2D 확산 모델을 이용해 다수의 시점에서 일관된 2D 이미지 시퀀스를 생성한다. 이후 이러한 2D 이미지들을 역투영(inverse rendering) 기법과 결합하여, 초기 3DMM의 기하학 파라미터와 텍스처 파라미터를 추정한다. 추정 과정에서는 텍스트와 이미지 사이의 의미적 일치를 평가하기 위해 CLIP 기반의 손실 함수를 보조적으로 사용하지만, 최종적인 파라미터 업데이트는 확산 모델이 제공하는 확률적 그래디언트를 직접 활용한다. 특히, 우리는 기존의 전역적인 파라미터 최적화 대신, 얼굴의 각 부위(예: 눈, 코, 입, 귀 등)에 대한 지역적인 정규화 항을 도입하여, 세밀한 디테일을 보존하면서도 전체적인 형태는 텍스트 설명에 부합하도록 조정한다. 이러한 지역 정규화는 얼굴 표정이나 머리카락의 흐름과 같은 복잡한 변형을 자연스럽게 구현할 수 있게 해준다.

또한, 텍스처 업데이트 단계에서는 색상 및 재질 정보를 고해상도 2D 이미지에서 추출한 후, 이를 3DMM의 UV 맵에 매핑하는 과정을 거쳐, 실제와 유사한 피부 톤, 광택, 그리고 반사 특성을 재현한다. 최종적으로 얻어진 3D 머리 아바타는 기존의 3DMM이 제공하는 관절 파라미터(예: 턱 움직임, 눈 깜빡임, 머리 회전 등)를 그대로 적용할 수 있어, 실시간 애니메이션이나 인터랙티브 응용 프로그램에 바로 활용 가능하다.

실험 결과, 우리 방법으로 생성된 아바타는 시각적 품질, 텍스트와의 의미적 일치도, 그리고 관절 구동 시의 물리적 일관성 측면에서 최신 CLIP‑기반 방법들을 크게 앞선다. 정량적 평가지표로는 FID(Frechet Inception Distance), LPIPS(Learned Perceptual Image Patch Similarity), 그리고 3D 형태 유사도(Chamfer Distance) 등을 사용했으며, 모든 지표에서 우리 모델이 평균 15 % ~ 30 % 정도의 개선을 보였다. 주관적 사용자 설문에서도, 참가자들은 우리 시스템이 생성한 아바타가 더 자연스럽고, 텍스트 설명에 충실하며, 다양한 포즈에서도 일관된 외관을 유지한다고 평가하였다. 이러한 결과는 텍스트‑가이드 3D 생성 분야에서 확산 모델과 3DMM의 결합이 강력한 시너지 효과를 발휘한다는 것을 시사한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut