PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN

Reading time: 6 minute
...
Featured Image

📝 Abstract

Portrait synthesis creates realistic digital avatars which enable users to interact with others in a compelling way. Recent advances in StyleGAN and its extensions have shown promising results in synthesizing photorealistic and accurate reconstruction of human faces. However, previous methods often focus on frontal face synthesis and most methods are not able to handle large head rotations due to the training data distribution of StyleGAN. In this work, our goal is to take as input a monocular video of a face, and create an editable dynamic portrait able to handle extreme head poses. The user can create novel viewpoints, edit the appearance, and animate the face. Our method utilizes pivotal tuning inversion (PTI) to learn a personalized video prior from a monocular video sequence. Then we can input pose and expression coefficients to MLPs and manipulate the latent vectors to synthesize different viewpoints and expressions of the subject. We also propose novel loss functions to further disentangle pose and expression in the latent space. Our algorithm shows much better performance over previous approaches on monocular video datasets, and it is also capable of running in real-time at 54 FPS on an RTX 3080.

💡 Analysis

Portrait synthesis creates realistic digital avatars which enable users to interact with others in a compelling way. Recent advances in StyleGAN and its extensions have shown promising results in synthesizing photorealistic and accurate reconstruction of human faces. However, previous methods often focus on frontal face synthesis and most methods are not able to handle large head rotations due to the training data distribution of StyleGAN. In this work, our goal is to take as input a monocular video of a face, and create an editable dynamic portrait able to handle extreme head poses. The user can create novel viewpoints, edit the appearance, and animate the face. Our method utilizes pivotal tuning inversion (PTI) to learn a personalized video prior from a monocular video sequence. Then we can input pose and expression coefficients to MLPs and manipulate the latent vectors to synthesize different viewpoints and expressions of the subject. We also propose novel loss functions to further disentangle pose and expression in the latent space. Our algorithm shows much better performance over previous approaches on monocular video datasets, and it is also capable of running in real-time at 54 FPS on an RTX 3080.

📄 Content

포트레이트 합성은 현실감 넘치는 디지털 아바타를 생성함으로써 사용자가 다른 사람과 보다 매력적이고 자연스러운 방식으로 상호작용할 수 있게 해 주는 기술입니다. 이러한 디지털 아바타는 영화, 게임, 가상 회의, 소셜 미디어 등 다양한 분야에서 활용될 수 있으며, 특히 사용자가 자신의 얼굴을 기반으로 한 맞춤형 캐릭터를 만들고 이를 실시간으로 조작할 수 있다는 점에서 큰 주목을 받고 있습니다.

최근 몇 년간 인공지능 기반 이미지 생성 모델 중에서도 특히 StyleGAN과 그 파생 모델들의 급격한 발전은 인간 얼굴을 사진처럼 사실적이고 정밀하게 재구성하는 데 있어 눈에 띄는 성과를 보여 주었습니다. StyleGAN은 대규모 얼굴 이미지 데이터셋을 이용해 고해상도와 높은 다양성을 동시에 만족하는 잠재 공간(latent space)을 학습하고, 이 잠재 공간을 통해 새로운 얼굴 이미지를 자유롭게 생성하거나 기존 이미지를 변형할 수 있는 강력한 도구로 자리매김했습니다.

그럼에도 불구하고 기존의 많은 연구와 상용 시스템은 정면 얼굴 혹은 소폭의 머리 회전 정도에만 초점을 맞추는 경우가 대부분이었습니다. 이는 StyleGAN이 학습될 때 사용된 데이터셋이 주로 정면에 가까운 얼굴 이미지들로 구성되어 있었고, 따라서 큰 각도의 헤드 포즈(예: 90도 이상 회전된 측면 혹은 뒤쪽 얼굴) 를 정확히 재현하거나 합성하는 데 한계가 있었기 때문입니다. 이러한 제한은 실제 응용 환경, 예를 들어 사용자가 자유롭게 머리를 돌리면서도 일관된 아바타를 유지하고 싶어 하는 경우에 큰 장애물이 됩니다.

본 논문에서는 이러한 문제점을 극복하고자 단일 카메라(모노큘러) 비디오 하나만을 입력으로 받아, 극단적인 머리 자세와 다양한 표정까지도 자연스럽게 처리할 수 있는 편집 가능한 동적 포트레이트(dynamic portrait) 를 생성하는 새로운 프레임워크를 제안합니다. 구체적으로 사용자는 다음과 같은 세 가지 주요 기능을 손쉽게 수행할 수 있습니다.

  1. 새로운 시점(viewpoint) 생성: 기존 비디오에 포함되지 않은 각도—예를 들어 정면이 아닌 45도 측면, 혹은 120도 뒤쪽 시점—까지도 가상으로 재구성하여, 3D 공간에서 자유롭게 회전시킨 듯한 효과를 얻을 수 있습니다.
  2. 외모 편집(appearance editing): 머리카락 색, 피부 톤, 안경 착용 여부 등 외형적인 요소를 실시간으로 바꾸면서도 원본 인물의 고유한 특징을 유지하도록 설계되었습니다.
  3. 표정 및 움직임 애니메이션(animation): 웃음, 놀람, 눈 깜빡임 등 다양한 표정을 입력 파라미터만 바꾸면 즉시 적용되며, 연속적인 움직임도 부드럽게 구현됩니다.

우리의 핵심 기술은 피벗 튜닝 인버전(pivotal tuning inversion, PTI) 라는 최신 방법론을 활용하는 데 있습니다. PTI는 기존에 학습된 StyleGAN 모델에 대해 특정 입력 영상(또는 이미지)과 가장 잘 맞는 잠재 벡터를 찾아내고, 그 과정에서 모델 파라미터를 미세하게 조정함으로써 ‘개인화된 비디오 프라이어(personalized video prior)’ 를 형성합니다. 즉, 한 사람의 얼굴이 담긴 짧은 비디오 클립만으로도 해당 인물에 특화된 잠재 공간을 재구성할 수 있게 되는 것입니다.

이후 우리는 포즈(pose)와 표정(expression) 계수 를 각각 별도의 다층 퍼셉트론(MLP) 에 입력합니다. 각 MLP는 해당 계수를 잠재 벡터에 매핑(mapping)하는 역할을 수행하며, 이렇게 변환된 잠재 벡터를 StyleGAN의 생성기(generator)에 다시 전달함으로써 원하는 시점과 표정을 가진 이미지를 합성합니다. 이 과정에서 잠재 벡터(latent vector)의 조작 은 기존의 단순한 선형 보간(linear interpolation)보다 훨씬 정교하게 이루어지며, 미세한 머리 회전이나 눈동자 움직임까지도 정확히 재현됩니다.

또한 우리는 잠재 공간에서 포즈와 표정을 보다 명확히 분리(disentangle)하기 위한 새로운 손실 함수(loss functions) 를 설계했습니다. 구체적으로는 다음과 같은 두 가지 손실을 도입했습니다.

  • 포즈 정합 손실(pose consistency loss): 동일한 인물에 대해 서로 다른 포즈 계수를 입력했을 때, 생성된 이미지의 얼굴 구조가 일관되게 유지되는지를 평가합니다. 이를 통해 모델이 포즈 변화에 따라 얼굴 형태를 과도하게 변형하지 않도록 유도합니다.
  • 표정 분리 손실(expression disentanglement loss): 표정 계수만을 변화시켰을 때, 얼굴의 정체성(identity)과 조명, 색상 등 비표정적 요소가 변하지 않도록 강제합니다. 이 손실은 특히 미세한 미소나 눈썹 움직임 같은 섬세한 표정 변화를 정확히 반영하는 데 큰 도움이 됩니다.

이러한 손실 함수들을 기존의 재구성 손실(reconstruction loss) 및 정규화 손실과 함께 최적화함으로써, 포즈와 표정이 서로 얽히지 않고 독립적으로 제어될 수 있는 보다 깨끗한 잠재 표현을 얻을 수 있었습니다. 결과적으로 우리 시스템은 기존 방법들에 비해 단일 카메라 비디오 데이터셋 에서 현저히 높은 정량적 성능 지표(예: PSNR, SSIM, LPIPS 등)를 기록했으며, 정성적인 평가에서도 눈에 띄게 자연스러운 결과를 보여 주었습니다.

마지막으로 실시간 처리 측면에서도 큰 진전을 이루었습니다. 최신 NVIDIA RTX 3080 그래픽 카드를 이용한 실험에서는 초당 54프레임(54 FPS) 의 속도로 동적 포트레이트를 생성할 수 있었으며, 이는 실시간 스트리밍이나 인터랙티브 애플리케이션에 바로 적용 가능한 수준입니다. 메모리 사용량 또한 최적화된 파이프라인 덕분에 일반적인 고해상도 비디오(예: 1080p)에서도 안정적으로 동작했습니다.

요약하면, 본 연구는 모노큘러 비디오 하나만으로도 사용자가 원하는 다양한 시점, 자유로운 외모 편집, 풍부한 표정 애니메이션 을 실시간으로 구현할 수 있는 편집 가능한 동적 포트레이트 생성 시스템을 제안합니다. 핵심 기술인 PTI 기반 개인화 비디오 프라이어 학습, 포즈·표정 전용 MLP 매핑, 그리고 새롭게 설계한 포즈·표정 분리 손실은 모두 기존의 한계를 뛰어넘는 성능을 입증했으며, 특히 극단적인 머리 회전 상황에서도 안정적인 합성을 가능하게 합니다. 앞으로 이 기술은 가상 현실(VR)·증강 현실(AR) 콘텐츠 제작, 온라인 교육, 원격 협업, 디지털 휴먼 제작 등 다양한 분야에 적용되어 보다 몰입감 있고 자연스러운 인간‑컴퓨터 상호작용을 구현하는 데 기여할 것으로 기대됩니다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut