음성과 얼굴을 분리해 만든 실감 나는 토킹 헤드
초록
MakeItTalk는 단일 인물 사진과 오디오만을 입력으로 받아, 음성 내용과 화자 고유 정보를 분리해 얼굴 랜드마크를 예측하고, 이를 기반으로 사진·만화·일러스트 등 다양한 스타일의 고품질 토킹 헤드를 자동으로 생성하는 시스템이다.
상세 분석
MakeItTalk의 핵심 아이디어는 “음성 콘텐츠(content)와 화자 정체성(speaker identity)을 명확히 분리”하는 것이다. 기존 연구들은 오디오를 직접 픽셀이나 3D 모델에 매핑하려 했지만, 음성‑시각 매핑은 일대일 대응이 아니며 화자마다 머리 자세·표정·미세 움직임이 크게 다르기 때문에 학습이 불안정했다. 저자들은 먼저 음성 신호를 Voice‑Conversion 네트워크(예: Auto‑VC)로 처리해 콘텐츠 임베딩과 화자 임베딩을 추출한다. 콘텐츠 임베딩은 발음·억양 등 입술·턱 주변 움직임을 결정하고, 화자 임베딩은 눈, 코, 머리 회전 등 화자 고유의 동적 스타일을 담당한다.
이 두 임베딩을 LSTM + Self‑Attention 모듈에 입력해 시간적 연속성을 보존하면서 랜드마크 변위를 예측한다. 랜드마크는 68개의 2D 포인트로 표현되며, 이는 수백만 픽셀을 직접 생성하는 것보다 차원 수가 훨씬 적어 데이터 효율성을 크게 높인다. 또한 랜드마크 기반이라 학습에 필요한 데이터 양이 상대적으로 적고, 비포토리얼리즘(만화·스케치·일러스트)까지 일반화가 가능하다.
예측된 랜드마크를 이미지 합성 단계에 전달한다. 저자는 두 가지 파이프라인을 제시한다. ① 비포토리얼 이미지에는 Delaunay 삼각분할을 이용한 워핑 방식을 적용해 원본 그림을 변형한다. ② 실제 인물 사진에는 이미지‑투‑이미지 번역 네트워크(UNet‑style GAN)를 사용해 랜드마크를 픽셀 수준으로 복원한다. 이때 텍스처와 조명은 원본 이미지에서 그대로 유지되므로 고해상도·포토리얼리즘을 달성한다.
실험에서는 기존 Lip‑Sync 전용 모델, 3DMM 기반 방법, 그리고 최신 GAN 기반 토킹 헤드와 비교해 정량적 지표(LMD, PSNR, SSIM)와 주관적 사용자 평가 모두에서 우수한 성능을 보였다. 특히 “보지 못한 화자·얼굴”에 대한 일반화 능력이 뛰어나, 훈련에 포함되지 않은 캐릭터나 사진에서도 자연스러운 움직임을 생성한다.
마지막으로 저자들은 화자 스타일을 정량화하기 위한 새로운 메트릭(예: 머리 회전 범위, 표정 다양성)과 사용자 설문을 제시해, 단순 입술 동기화가 아닌 전체 얼굴·머리 동작을 포괄하는 평가 체계를 마련했다. 전체적으로 MakeItTalk는 음성‑시각 멀티모달 학습에서 “내용‑스타일 분리” 전략이 고품질, 다스타일 토킹 헤드 생성에 얼마나 효과적인지를 입증한 중요한 연구이다.
댓글 및 학술 토론
Loading comments...
의견 남기기