LeGO: 하나의 예시만으로 스타일리시한 3D 얼굴을 자유롭게 변형하고 애니메이션화하는 기술

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 3DMM 기반 표면 변형 네트워크와 Mesh Agnostic Encoder(MAGE)를 결합해, 단일 스타일 예시만으로 원하는 토폴로지를 가진 고도 스타일링 얼굴 메쉬를 생성하고, 기존 3DMM 블렌드쉐이프를 그대로 활용해 애니메이션까지 가능하게 하는 새로운 파이프라인을 제안한다.

상세 분석

LeGO는 크게 두 개의 핵심 모듈로 구성된다. 첫 번째는 3DMM을 입력으로 학습된 표면 변형 네트워크(Surface Deformation Network, SDN)이며, 이는 원본 얼굴 메쉬를 스타일 도메인으로 매핑하는 함수 fθ를 학습한다. 스타일 매핑은 차별화 가능한 렌더러와 CLIP 기반 방향성 손실(directional CLIP loss)을 이용해 이미지-텍스트 임베딩 공간에서 “스타일 일치”를 정량화한다. 기존 3DMM 기반 방법들은 통계적 형태 공간의 제한으로 스타일 변형 폭이 제한되었지만, SDN은 정점 위치를 직접 변형함으로써 고주파 디테일과 비선형 변형을 자유롭게 표현한다. 두 번째 모듈인 Mesh Agnostic Encoder(MAGE)는 입력 메쉬의 토폴로지와 정점 수에 무관하게 형태를 잠재 벡터 z로 인코딩한다. 이를 위해 MAGE는 그래프 신경망과 포인트 클라우드 인코더를 혼합한 구조를 채택해, 다양한 해상도와 비정형 메쉬를 동일한 잠재 공간에 매핑한다. 이렇게 얻어진 z는 SDN의 조건부 입력으로 사용되어, “어떤 토폴로지든” 원하는 스타일로 변형된 메쉬를 출력한다.

학습 단계에서는 (원본 3DMM 메쉬, 스타일 메쉬) 쌍을 이용해 지도 학습을 수행한다. 스타일 메쉬는 단일 예시(예: 만화 캐릭터)만 필요하며, 해당 예시와 원본 메쉬 사이의 정점 대응을 자동으로 추정한다. 정합 손실(L2 정점 거리)과 함께, 차별화 가능한 렌더링 결과에 대한 CLIP 방향성 손실을 결합해 시각적 스타일 일치를 강화한다. 또한, 스타일 변형 과정에서 블렌드쉐이프 파라미터를 그대로 유지하도록 제약을 두어, 최종 메쉬가 기존 3DMM 블렌드쉐이프와 호환되게 만든다.

추론 시 사용자는 任意의 토폴로지를 가진 메쉬(예: 저해상도 폴리곤, 스컬프팅 모델)를 MAGE에 입력하면, 해당 형태가 잠재 공간에 매핑되고, 원하는 스타일 코드와 결합되어 즉시 스타일링된 메쉬를 얻는다. 결과 메쉬는 원본 3DMM 블렌드쉐이프와 동일한 파라미터 집합을 적용할 수 있어, 표정 변화, 입술 움직임 등 실시간 애니메이션이 가능하다.

실험에서는 정량적 지표(FID, LPIPS)와 정성적 사용자 설문을 통해 기존 3DMM 기반 스타일링 방법보다 높은 스타일 일관성과 토폴로지 자유도를 입증하였다. 특히, 저해상도 메쉬에서도 디테일 손실이 최소화되었으며, 다양한 스타일(만화, 픽셀아트, 조각상) 사이의 선형 보간이 부드럽게 수행되는 것을 시연했다.

LeGO의 주요 기여는 (1) 단일 예시만으로 고품질 스타일링을 가능하게 하는 도메인 변환 프레임워크, (2) 토폴로지에 구애받지 않는 메쉬 인코더 설계, (3) 기존 3DMM 블렌드쉐이프와의 완전한 호환성을 유지하면서도 고주파 디테일을 보존하는 변형 네트워크이다. 이러한 특성은 게임, AR/VR, 디지털 휴먼 제작 등 실시간 애플리케이션에 바로 적용할 수 있는 실용성을 제공한다.

LeGO: 하나의 예시만으로 스타일리시한 3D 얼굴을 자유롭게 변형하고 애니메이션화하는 기술

초록

상세 분석

댓글 및 학술 토론

의견 남기기