표정과 자세 그리고 시점까지 자유자재로 조절하는 차세대 인물 애니메이션 기술 FactorPortrait
초록
FactorPortrait는 단일 이미지로부터 표정, 머리 움직임, 카메라 시점을 완전히 분리하여 제어할 수 있는 비디오 확산 모델 기반의 인물 애니메이션 기술입니다. 드라이빙 비디오의 미세한 표정 변화를 추출하여 원본 이미지에 입히는 동시에, 3D 기하학적 정보를 활용해 새로운 카메라 각도에서의 자연스러운 영상 합성을 가능하게 합니다.
상세 분석
FactorPortrait의 기술적 핵심은 ‘제어 신호의 분리(Disentanglement)‘와 ‘기하학적 정밀도(Geometric Precision)‘의 결합에 있습니다. 기존의 인물 애니메이션 모델들은 표정의 변화와 머리의 자세, 그리고 카메라의 움직임이 서로 얽혀 있어, 특정 요소만을 독립적으로 조절하는 데 한계가 있었습니다. 예를 들어, 표정을 바꾸려 하면 인물의 정체성(Identity)이 변하거나 머리 각도가 왜곡되는 문제가 빈번했습니다.
이 논문은 이를 해결하기 위해 세 가지 혁신적인 메커니즘을 제안합니다. 첫째, 표정 제어를 위해 사전 학습된 이미지 인코더를 활용하여 드라이빙 비디오에서 ‘표정 잠재 변수(Expression Latents)‘를 추출합니다. 이 과정에서 인물의 고유한 정체성과 자세 정보는 배제하고 오직 표정의 역동적인 변화만을 포괄하도록 설계되었습니다. 추출된 이 잠재 변수들은 비디오 확산 트랜스포머(Video Diffusion Transformer) 내의 전용 ‘표정 컨트롤러(Expression Controller)‘를 통해 주입되어, 원본 이미지의 정체성을 유지하면서도 매우 정교한 근육의 움직임을 재현합니다.
둘째, 카메라 및 머리 자세 제어를 위해 2D 기반의 단순 변형을 넘어 3D 공간의 물리적 특성을 반영했습니다. 3D 바디 메쉬 트래킹으로부터 렌더링된 Plücker ray maps와 normal maps를 제어 신호로 사용합니다. Plücker ray maps는 광선의 기하학적 정보를, normal maps는 표면의 방향 정보를 제공함으로써, 모델이 단순한 픽셀 이동이 아닌 3D 공간에서의 시점 변화(Novel View Synthesis)를 이해하고 생성할 수 있는 수학적 토대를 제공합니다.
셋째, 이러한 복합적인 제어를 학습시키기 위해 다양한 카메라 궤적, 머리 자세, 표정 역동성이 결합된 대규모 합성 데이터셋을 구축했습니다. 이는 모델이 학습 과정에서 각 제어 요소 간의 상관관계를 학습하면서도, 각 요소를 독립적인 파라로 제어할 수 있는 일반화 능력을 갖추게 하는 결정적인 역할을 합니다. 결과적으로 FactorPortrait는 시각적 사실성과 제어의 정확도라는 두 마리 토끼를 모두 잡은 모델이라 평가할 수 있습니다.
FactorPortrait는 단일 정지 이미지로부터 생동감 넘치는 인물 애니메이션 비디오를 생성하기 위한 혁신적인 비디오 확산(Video Diffusion) 프레임워크를 제안합니다. 본 연구의 주된 목표는 인물 애니메이션의 핵심 요소인 ‘얼굴 표정’, ‘머리 자세(Pose)’, 그리고 ‘카메라 시점(Viewpoint)‘을 각각 독립적인 제어 신호로 분리하여, 사용자가 원하는 대로 정밀하게 조절할 수 있는 시스템을 구축하는 것입니다.
기존의 기술들은 드라이빙 비디오의 움직임을 복제하는 과정에서 표정과 자세가 혼재되어 나타나거나, 카메라 각도를 변경할 때 인물의 형태가 무너지는 등의 한계를 보였습니다. FactorPortrait는 이러한 문제를 해결하기 위해 ‘분리된 제어(Disentangled Control)‘라는 개념을 도입했습니다.
시스템의 작동 원리는 크게 세 단계로 나뉩니다. 첫 번째 단계는 표정의 추출 및 주입입니다. 연구진은 사전 학습된 이미지 인코더를 사용하여 드라이빙 비디오에서 표정의 동역학(Dynamics)만을 담고 있는 잠재 변수를 추출합니다. 이 잠재 변수에는 인물의 정체성이나 머리의 위치 정보가 포함되지 않도록 설계되어, 애니메이션 대상이 되는 원본 이미지의 정체성을 완벽하게 보존하면서도 드라이빙 비디오의 미세한 표정 변화만을 정확하게 전달합니다. 이렇게 추출된 신호는 비디오 확산 트랜스포머의 ‘표정 컨트롤러’를 통해 모델의 생성 과정에 정교하게 주입됩니다.
두 번째 단계는 3D 기하학적 정보를 이용한 자세 및 시점 제어입니다. 카메라의 이동 경로와 머리의 기울기를 제어하기 위해, 3D 바디 메쉬 트래킹 기술을 활용하여 Plücker ray maps와 normal maps를 생성합니다. 이는 2D 이미지 기반의 제어 방식이 가진 한계를 극복하고, 모델이 3D 공간에서의 광선 경로와 표면의 법선 벡터를 인식하게 함으로써, 카메라가 인물의 주변을 회전하거나 각도를 변경하는 ‘새로운 시점 합성(Novel View Synthesis)‘을 매우 자연스럽게 수행할 수 있도록 합니다. 이를 통해 사용자는 마치 카메라맨이 인물을 촬영하듯 자유로운 앵글 변화를 구현할 수 있습니다.
세 번째 단계는 대규모 합성 데이터셋을 통한 학습입니다. 복잡한 다중 제어 신호를 학습시키기 위해, 연구진은 다양한 카메라 궤적, 머리 자세, 그리고 다양한 표정 변화가 조합된 대규모 합성 데이터셋을 구축하였습니다. 이 방대한 데이터를 통해 모델은 각 제어 신호가 영상의 어떤 부분에 영향을 미치는지 학습하며, 서로 다른 제어 신호가 충돌하지 않고 조화롭게 작용하도록 훈련되었습니다.
실험 결과, FactorPortrait는 기존의 최첨단(SOTA) 모델들과 비교하여 여러 지표에서 압도적인 성능을 입증했습니다. 특히 생성된 영상의 시각적 사실성(Realism)은 물론, 표정의 풍부한 표현력(Expressiveness), 제어 신호에 대한 정확한 추종 능력(Control Accuracy), 그리고 시점 변화 시 발생하는 영상의 일관성(View Consistency) 모든 측면에서 우수한 성과를 거두었습니다. 이 기술은 디지털 휴먼 제작, 영화 VFX, 가상 현실(VR) 및 증강 현실(AR) 등 고품질의 인물 애니메이션이 필요한 다양한 산업 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.
댓글 및 학술 토론
Loading comments...
의견 남기기