360도 가우시안 아바타 한 번에 모델링 OMEGA Avatar

360도 가우시안 아바타 한 번에 모델링 OMEGA Avatar
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OMEGA-Avatar는 단일 인물 사진만으로 360° 전면을 포함한 전체 머리 형태와 애니메이션이 가능한 3D 가우시안 아바타를 실시간 피드포워드 방식으로 생성한다. 핵심은 다중뷰 정상맵을 이용한 의미‑인식 메쉬 변형과, 다중뷰 특징을 공유 UV 공간에 스플래팅해 고해상도 디테일을 보존하는 두 모듈이다. 실험 결과 기존 방법들을 크게 앞서며 정체성 유지와 전방위 일관성을 동시에 달성한다.

상세 분석

본 논문은 “단일 이미지 → 360° 완전 머리 → 애니메이션 가능”이라는 세 가지 요구를 동시에 만족시키는 최초의 피드포워드 프레임워크를 제시한다. 첫 번째 핵심 기술은 의미‑인식 메쉬 변형(semantic‑aware mesh deformation)이다. 기존 FLAME 기반 방법은 얼굴 영역만 정밀히 복원하고 머리 뒤쪽·머리카락을 무시하거나, 다중 단계 리메싱을 통해 토폴로지를 손상시킨다. OMEGA‑Avatar는 사전 학습된 다중뷰 디퓨전 모델을 활용해 입력 사진으로부터 6개의 일관된 RGB 이미지와 정규화된 법선 맵을 합성한다. 이 법선 맵은 다중 시점에서의 기하학적 제약을 제공하며, FLAME 템플릿에 per‑vertex 오프셋 ΔV를 최적화함으로써 머리 전체(특히 머리카락·두피)의 고주파 디테일을 복원한다. 여기서 의미‑인식 토폴로지 보존 전략을 도입해 얼굴 영역은 파라메트릭 구조를 유지하고, 비얼굴 영역에만 법선 일관성 손실을 적용한다. 또한, 부위별 가중치를 갖는 의미‑인식 라플라시안(Laplacian) 정규화로 두피와 머리카락 영역의 스무딩을 강화하면서 얼굴의 섬세한 형태는 손상되지 않도록 설계했다.

두 번째 핵심은 다중뷰 특징 스플래팅(multi‑view feature splatting)이다. 각 뷰에서 DINOv3+FPN 기반 이미지 인코더가 추출한 픽셀‑정렬 특징을, 차별화 가능한 bilinear splatting을 통해 UV 좌표에 투사한다. 계층적 UV 매핑 파이프라인은 coarse‑to‑fine 피라미드 구조를 사용해 뷰 간 누락 영역을 메우고, 가시성‑인식 융합 모듈은 뷰‑별 신뢰도와 샘플링 밀도를 결합해 가중 평균을 수행한다. 결과적으로 전 시점에서 일관된 고해상도 UV 특징 맵이 생성되며, 이는 3D 가우시안 디코더에 입력돼 정밀한 색상·알베도·투명도 정보를 제공한다.

아바타의 3D 표현은 하이브리드 가우시안 구조로 구성된다. Vertex Gaussian branch는 FLAME 정점에 직접 가우시안을 할당해 표현·포즈 파라미터에 따라 즉시 변형 가능하도록 한다. 각 정점은 전역 아이덴티티 토큰과 정점‑별 학습 파라미터를 결합해 디코더에 전달, 위치·스케일·색상·투명도 속성을 예측한다. UV Gaussian branch는 앞서 만든 공유 UV 특징 맵을 기반으로 전역적인 외관 디테일을 복원한다. 두 브랜치를 결합함으로써 구조적 안정성과 고주파 외관 디테일을 동시에 확보한다.

학습 단계에서는 법선 일관성 손실, 랜드마크 투영 손실, 의미‑인식 라플라시안 손실을 가중합한 복합 손실을 사용한다. 또한, 애니메이션을 위해 목표 이미지에서 추출한 표현·포즈 파라미터를 FLAME에 주입하고, 최종 렌더링은 신경망 기반 리파이너를 통해 품질을 향상시킨다.

실험에서는 FFHQ 기반 A va‑256 데이터셋과 자체 수집한 멀티뷰 헤드 데이터에 대해 PSNR, SSIM, LPIPS, DS 등 정량 지표와 시각적 품질을 평가했다. OMEGA‑Avatar는 기존 3DGS 기반 GAGA‑Avatar, SOAP, FATE 등과 비교해 PSNR이 평균 2.95% 상승하고, SSIM이 0.30% 개선되는 등 전반적인 성능에서 우위를 점했다. 특히 뒤쪽·측면 뷰에서의 기하학적 일관성과 머리카락 디테일 복원에서 현저히 뛰어난 결과를 보였다.

요약하면, OMEGA‑Avatar는 (1) 다중뷰 디퓨전 기반 법선 지도와 의미‑인식 메쉬 변형으로 360° 완전 머리 기하학을 확보하고, (2) 차별화 가능한 다중뷰 특징 스플래팅으로 전 시점 일관된 고해상도 UV 특징을 생성하며, (3) 하이브리드 가우시안 디코더로 애니메이션 친화적인 구조와 외관 디테일을 동시에 제공한다. 이로써 단일 이미지 입력만으로도 실시간, 고품질, 애니메이션 가능한 전체 머리 아바타를 구현한다는 새로운 패러다임을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기