Few Shot 3D Gaussian 헤드 아바타 실시간 생성 및 애니메이션
초록
FastGHA는 몇 장의 사진만으로 고품질 3D Gaussian 헤드 아바타를 즉시 생성하고, FLAME 표정 코드를 이용해 실시간으로 변형·렌더링할 수 있는 피드‑포워드 시스템이다. 멀티뷰 트랜스포머가 DINOv3와 Stable Diffusion VAE 특징을 융합하고, 사전 학습된 대형 재구성 모델(VGGT)의 점 지도를 기하학적 정규화로 활용해 정밀한 형태와 부드러운 동작을 보장한다.
상세 분석
FastGHA는 기존 3D Gaussian 기반 헤드 아바타 연구가 안고 있던 두 가지 핵심 한계를 동시에 해결한다. 첫째, 다중 뷰 캡처나 장시간의 per‑identity 최적화 없이도 몇 장의 이미지만으로 고해상도 아바타를 생성한다는 점이다. 이를 위해 저자는 입력 이미지에서 DINOv3(시멘틱)와 Stable Diffusion VAE(색상·텍스처) 두 종류의 사전 학습된 특징을 추출하고, 이들을 플러커 레이맵과 함께 채널 차원으로 결합한다. 결합된 특징은 멀티‑뷰 트랜스포머에 입력되어 각 뷰 간의 대응 관계를 학습하고, 이후 수정된 SD‑Turbo 디코더가 픽셀‑단위 3D Gaussian 파라미터(위치, 색상, 회전, 스케일, 불투명도)를 예측한다. 이렇게 얻어진 ‘canonical’ Gaussian 헤드는 표정이 중립인 상태로 정규화되며, 이는 이후 애니메이션 단계에서 표정 변형을 보다 명확히 분리할 수 있게 한다.
둘째, 실시간 애니메이션을 지원한다는 점이다. 기존의 Animatable Gaussian 모델들은 복잡한 크로스‑어텐션 구조나 무거운 변형 네트워크 때문에 프레임당 수십 밀리초 이상의 지연이 발생했다. FastGHA는 각 Gaussian에 32‑차원의 per‑Gaussian 피처를 부착하고, 이 피처와 FLAME 표정 코드(z_exp)를 입력으로 하는 경량 MLP(다층 퍼셉트론)를 설계했다. MLP는 각 Gaussian에 대해 위치와 색상 오프셋을 독립적으로 예측하므로 완전 병렬 처리가 가능하고, GPU에서 30 fps 이상의 실시간 렌더링을 달성한다.
기하학적 품질을 높이기 위해 저자는 사전 학습된 대형 재구성 모델 VGGT가 생성한 점 지도(point map)를 ‘geometry prior’로 활용한다. 이 점 지도는 훈련 중에 L2 손실 형태로 정규화 항에 포함되어, Gaussian 클라우드가 실제 얼굴 형태와 일관되도록 유도한다. 결과적으로 FastGHA는 기존 Feed‑Forward 방식(Avat3r 등)보다 더 부드러운 표면과 정확한 디테일을 유지하면서도, 별도의 최적화 단계 없이 바로 애니메이션이 가능하다.
실험에서는 대규모 멀티‑뷰 헤드 비디오 데이터셋을 사용해 FastGHA를 학습시켰으며, PSNR/SSIM 등 정량적 지표와 사용자 설문을 통해 기존 최첨단 방법 대비 0.5 dB 이상의 품질 향상과 2‑3배 빠른 추론 속도를 입증했다. 특히 ‘재구성 시간 < 1 초, 애니메이션 프레임당 30 ms 이하’라는 실시간 기준을 만족한다는 점이 실용적 응용(AR/VR, 실시간 스트리밍 등)에서 큰 강점으로 작용한다.
요약하면, FastGHA는 (1) few‑shot 입력 → 고품질 3D Gaussian 헤드, (2) 경량 MLP 기반 표정 변형 → 실시간 애니메이션, (3) 대형 재구성 모델을 이용한 기하학 정규화라는 세 축을 결합해, 현재 3D 아바타 생성 분야에서 가장 효율적이고 확장 가능한 솔루션 중 하나로 자리매김한다.
댓글 및 학술 토론
Loading comments...
의견 남기기