와일드캡 얼굴 외형 야외 캡처

초록

스마트폰으로 촬영한 야외 동영상에서 4개의 대표 프레임을 선택해 하이브리드 역렌더링 파이프라인을 적용, 고품질 3D 얼굴 메쉬와 텍스처, 조명 정보를 자동으로 복원한다. 결과물은 Blender 등 그래픽 엔진에 바로 임포트해 사실적인 렌더링이 가능하다.

상세 분석

본 논문은 ‘WildCap’이라는 시스템을 제안하여, 일상적인 스마트폰 영상(즉, 조명, 배경, 카메라 움직임이 통제되지 않은 야외 환경)으로부터 고해상도 얼굴 3D 자산을 자동으로 생성한다. 핵심 아이디어는 ‘하이브리드 역렌더링(Hybrid Inverse Rendering)’이다. 기존의 3DMM 기반 정적 복원은 제한된 조명 모델과 저해상도 텍스처 때문에 실사 수준의 결과를 얻기 어렵다. 반면, 완전한 뉴럴 렌더링은 연산 비용이 높고, 실제 물리적 파라미터(예: 표면 반사율, 광원 위치)를 해석적으로 추출하기 어렵다. 저자들은 이 두 접근법의 장점을 결합해, (1) 초기 단계에서 3DMM을 이용해 대략적인 형태와 알베도를 추정하고, (2) 이후 단계에서 뉴럴 디퍼런셔블 렌더러와 전통적인 물리 기반 셰이딩을 결합해 세부 디테일과 정확한 조명 파라미터를 정교화한다.

구체적인 파이프라인은 다음과 같다. 먼저, 입력 비디오에서 얼굴이 명확히 보이는 4개의 프레임을 자동 선택한다. 이때 얼굴 검출·정렬·키포인트 추출을 통해 각 프레임을 정규화하고, 다중 뷰 기하 정보를 얻는다. 선택된 프레임들을 이용해 기존 3DMM(예: FLAME, BFM)을 최적화해 전역 형태와 알베도, 그리고 카메라 포즈를 추정한다. 이 단계는 전역적인 구조를 빠르게 복원하고, 이후 뉴럴 단계에서의 탐색 공간을 크게 축소한다.

다음으로, 저자들은 ‘Neural Texture Map’을 도입한다. 3DMM 메쉬의 UV 공간에 고해상도 텍스처를 뉴럴 네트워크(멀티 레이어 퍼셉트론)로 매핑하고, 각 프레임의 관측값과 비교해 손실을 최소화한다. 동시에, 물리 기반 조명 모델(구면 조화 기반 환경광 + 점광원)과 스페큘러 파라미터를 공동 최적화한다. 이때 미분 가능한 렌더러를 사용해 색상, 노멀, 스페큘러 성분을 모두 역전파 가능하게 만든다. 결과적으로, 기존 3DMM이 제공하지 못했던 미세한 주름, 피부 반사, 그리고 복잡한 야외 조명 효과를 정확히 복원한다.

특히 주목할 점은 ‘Coarse-to-Fine’ 전략이다. 초기 3DMM 단계에서 얻은 형태를 고정하고, 뉴럴 텍스처와 조명을 반복적으로 업데이트한다. 이후 형태를 미세하게 조정하기 위해 ‘Implicit Surface Refinement’를 적용한다. 이 과정은 Signed Distance Function(SDF) 기반의 뉴럴 임플리시트 레프레젠테이션을 활용해, 메쉬의 정밀도를 0.1mm 수준까지 끌어올린다. 최종 결과물은 정점 위치, 고해상도 알베도·노멀·스페큘러 맵, 그리고 조명 파라미터를 모두 포함한다.

실험에서는 다양한 야외 시나리오(공원, 거리, 실내외 경계)와 조명 조건(햇빛, 그림자, 인공 조명)에서 30명 이상의 피험자를 대상으로 평가했다. 정량적 지표로는 기존 3DMM 기반 방법 대비 평균 지오메트리 오류가 35% 감소했으며, 텍스처 PSNR이 4dB 향상되었다. 정성적으로는 Blender에 임포트 후 새로운 환경(스튜디오 라이트, HDRI 배경)에서 렌더링했을 때, 원본 영상과 거의 구분이 안 될 정도의 사실성을 보여준다. 또한, 실시간 수준은 아니지만, 최적화된 GPU 환경에서 전체 파이프라인을 5~7분 내에 완료한다는 점도 실용성을 높인다.

한계점으로는 (1) 얼굴이 크게 가려지거나, 급격한 움직임이 있는 경우 프레임 선택이 어려워 정확도가 떨어진다. (2) 현재는 정적 얼굴만을 대상으로 하며, 표정 변화나 입술 움직임을 다루지는 않는다. (3) 고해상도 뉴럴 텍스처 학습에 메모리 요구량이 크다. 향후 연구에서는 동적 표정 캡처, 메모리 효율적인 뉴럴 레프레젠테이션, 그리고 모바일 디바이스에서의 실시간 추론을 목표로 제시하고 있다.