전체 머리와 머리카락을 포괄하는 딥 임플리시트 3D 모폴러블 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

i3DMM은 전체 인간 머리를 대상으로 한 최초의 딥 임플리시트 3D 모폴러블 모델이다. 64명의 피험자를 다양한 표정·헤어스타일로 촬영한 데이터셋을 이용해, 정밀한 비강체 정합 없이도 SDF 기반의 암시적 표면을 학습한다. 모델은 하나의 레퍼런스 형태와 변형 네트워크로 형태를 분리하고, 색상 네트워크와 별도의 잠재 공간을 두어 색·형태를 정체성·표정·헤어스타일 단위로 의미론적으로 분리한다. 실험을 통해 기존 메쉬 기반 3DMM 대비 높은 재구성 정확도와 헤어·텍스처 전송, 헤드 편집 등 다양한 응용 가능성을 입증한다.

상세 분석

i3DMM은 기존 3DMM이 얼굴 영역에 국한되었던 한계를 극복하고, 전체 머리와 머리카락까지 포괄하는 첫 번째 딥 임플리시트 모델이다. 핵심 아이디어는 암시적 Signed Distance Function (SDF) 을 이용해 표면을 연속적인 스칼라 필드로 표현하고, Reference Shape Network (RefNet) 로 하나의 평균 형태를 학습한 뒤, Shape Deformation Network (DeformNet) 가 각 인스턴스별 변형 벡터 δ를 예측하도록 설계한 점이다. 이렇게 하면 사전 정합이 필요 없는 상태에서도 레퍼런스와 각 스캔 사이의 밀집 대응 관계 를 암묵적으로 얻을 수 있다.

모델은 잠재 코드 공간을 다중으로 분리한다. 형태 잠재 변수 z_geo는 정체성(z_geoId), 표정(z_geoEx), 헤어스타일(z_geoH) 세 부분으로 나뉘며, 색상 잠재 변수 z_col은 정체성(z_colId)과 헤어스타일(z_colH)만을 포함한다. 이 구조는 기존 3DMM이 하나의 형태·색상 벡터에 의존하던 것과 달리, 의미론적 디스엔탱글먼트 를 자연스럽게 유도한다. 학습 단계에서는 각 피험자마다 고유한 정체성 코드를 공유하고, 표정·헤어스타일 코드는 전체 인스턴스에 걸쳐 재사용한다. 따라서 새로운 조합(예: 기존 정체성에 새로운 표정·헤어스타일 적용)이 가능한 one‑shot 편집 이 가능해진다.

데이터 측면에서 저자들은 64명의 피험자를 10가지 표정과 3~4가지 헤어스타일(오픈, 묶음, 캡)로 촬영해 약 50k 정점의 텍스처드 메쉬를 확보했다. 스캔은 137대 카메라를 활용한 포토그래메트리 시스템으로, 잡음이 특히 머리카락 영역에 많이 존재한다. 이를 보완하기 위해 적응형 샘플링 전략을 도입했으며, 얼굴 주요 부위(눈·코·입)에는 고밀도 샘플을 추가해 디테일을 보존한다.

네트워크는 모두 완전 연결층으로 구성되며, 입력 좌표와 잠재 코드는 Sinusoidal Positional Encoding 으로 고주파 정보를 인코딩한다. RefNet은 3층(512 차원), DeformNet은 8층(1024 차원), ColorNet은 유사 구조를 갖는다. 손실 함수는 SDF 값과 색상값의 L2 차이를 최소화하고, 표면 근처 샘플에 대한 Eikonal regularization 을 적용해 기울기 일관성을 유지한다.

실험에서는 기존 메쉬 기반 3DMM(FLAME, LYHM 등)과 비교해 재구성 오류(RMSE) 가 크게 감소했으며, 특히 머리카락 형태와 텍스처 복원에서 우수함을 보였다. Ablation Study 를 통해 레퍼런스·디포메이션 분리, 색·형태 디스엔탱글먼트, 다중 잠재 공간 각각이 성능 향상에 기여함을 확인했다. 응용 사례로는 (1) 정체성·표정·헤어스타일을 독립적으로 조절한 헤드 편집, (2) 한 스캔에서 추출한 텍스처를 다른 스캔에 전송하는 텍스처 매핑, (3) 단일 스캔으로부터 3D 랜드마크와 세그멘테이션 마스크 를 자동 생성하는 작업이 제시되었다.

한계점으로는 데이터 규모 가 아직 작아(64명) 다양한 인종·연령·헤어스타일을 포괄하기엔 부족하고, 노이즈가 많은 머리카락 영역 에서 여전히 미세 디테일 복원에 한계가 있다. 또한 현재는 정적 스캔 만을 다루며, 시간에 따른 헤어 움직임이나 동적 표정 변화를 모델링하려면 추가적인 시퀀스 학습이 필요하다. 향후 연구에서는 대규모 스캔 데이터와 동적 시퀀스를 결합해 시간‑공간 연속성을 갖는 4D i3DMM을 구축하거나, 멀티모달 입력(이미지·비디오) 으로부터 직접 잠재 코드를 추정하는 인버전 네트워크를 개발하는 방향이 기대된다.

전체 머리와 머리카락을 포괄하는 딥 임플리시트 3D 모폴러블 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기