다양성을 품은 확산 모델 기반 의미‑제어 3D 얼굴 자산 생성 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 이미지 확산 모델을 활용해 44 000개의 고품질 3D 얼굴 데이터셋을 자동으로 구축하고, 이를 기반으로 연령·성별·인종 등 의미적 속성을 입력받아 UV‑공간의 기하와 알베도, 스펙큘러·디스플레이스먼트 맵까지 생성하는 GAN을 제안한다. 텍스처 정규화 파이프라인으로 조명·그림자를 제거하고, 실시간 편집·역전 과정을 지원하는 웹 인터페이스까지 제공한다.

상세 분석

이 연구는 크게 세 단계로 구성된다. 첫 번째 단계는 대규모 이미지 확산 모델(예: Stable Diffusion)을 이용해 다양한 인종·연령·성별 프롬프트로 2D 초상화를 생성하고, 이를 최신 3D 얼굴 복원 네트워크와 결합해 3D 메쉬와 UV 텍스처를 추출한다. 확산 모델의 출력은 조명과 그림자가 혼합된 RGB 이미지이므로, 저자들은 “텍스처 정규화 모듈”을 설계해 intrinsic decomposition 방식으로 알베도와 조명을 분리하고, 불완전하거나 색상 왜곡이 있는 영역을 보간·채우는 파이프라인을 구축했다. 이 과정에서 품질 검증(sanity check)과 라벨 정합성을 자동으로 수행해 44 000개의 고해상도(4K) 기하·알베도 쌍을 확보하였다.

두 번째 단계는 DisUnknown

다양성을 품은 확산 모델 기반 의미‑제어 3D 얼굴 자산 생성 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기