단일 RGB 영상으로 고품질 인간 퍼포먼스 캡처
초록
HiFECap은 하나의 RGB 비디오만을 입력으로 신체 자세, 옷 주름, 손 동작, 얼굴 표정을 동시에 3D로 복원한다. 다단계 네트워크와 가시성·강성 인식 정점 변위 모듈을 도입해 고주파 디테일을 재현하며, 다중 뷰에서 얻은 라벨을 활용한 약한 지도 학습으로 기존 단일 카메라 방식보다 정밀하고 일관된 결과를 얻는다.
상세 분석
HiFECap은 기존 단일 카메라 기반 인간 퍼포먼스 캡처가 갖는 ‘포즈·바디·의상·손·얼굴’ 중 일부만을 다루는 한계를 극복하기 위해 전체 파이프라인을 세 단계로 설계하였다. 첫 번째 단계인 PoseNet은 ResNet‑50 기반으로 2D 관절 검출(OpenPose)과 다중 뷰 키포인트 손실을 이용해 27차원의 관절 각도와 전역 회전·이동을 추정한다. 두 번째 단계인 EDefNet은 동일한 백본을 사용해 임베디드 변형 그래프(노드 수 K) 의 회전 A와 이동 T를 예측함으로써 몸통과 옷의 거친 변형을 복원한다. 여기서 중요한 점은 ‘강성 가중치 r_i’를 사전에 정의해 피부·신발 등 거의 강체에 해당하는 영역은 최소 변형으로 제한하고, 옷감처럼 유연한 영역은 자유롭게 변형하도록 설계한 것이다.
세 번째 단계인 DisplaceNet은 고주파 디테일, 즉 옷 주름·주름살 등을 정밀하게 복원한다. 입력 이미지 I_c 를 U‑Net(DUNet)으로 인코딩해 256×256×32 차원의 피처 맵을 얻고, 이를 현재 포즈와 임베디드 변형이 적용된 메쉬 정점에 투사한다. 투사 과정은 가시성(visibility) 정보를 활용해 보이는 정점에는 실제 픽셀 피처를, 보이지 않는 정점에는 전체 이미지 평균 피처를 할당한다. 이렇게 얻은 정점 피처는 그래프 CNN(DGCN)으로 전달되어 정점별 변위 d_i 를 출력한다. 변위는 강성 마스크 M과 Hadamard 곱을 수행해 강체 영역은 거의 변위가 없도록 억제한다.
학습은 완전한 지도 데이터가 존재하지 않으므로 약한 지도 방식으로 진행된다. 다중 뷰 실루엣 손실(L_sil), 2D 랜드마크 손실(L_mk), 그리고 렌더링 기반 이미지 재구성 손실(L_dr)을 결합해 정점이 이미지 경계와 일치하도록 유도한다. 또한, 스테레오 재구성으로부터 얻은 GT 메쉬와의 Chamfer 손실(L_cf)을 도입해 깊이 방향 변형을 보완한다. 정규화 항목으로는 ARAP(As‑Rigid‑As‑Possible) 그래프 변형 정규화, 라플라시안(L_lap), 등거리성(L_iso) 정규화가 포함돼 물리적 일관성을 유지한다.
특히 얼굴·손 영역을 기존 템플릿 메쉬에서 별도의 파라메트릭 모델(FLAME, MANO)로 교체하고, 전용 네트워크가 각각의 파라미터(표정, 손가락 관절)를 예측하도록 함으로써 전체 파이프라인이 ‘전신·의상·얼굴·손’까지 일관된 3D 스페이스에 매핑된다. 학습 단계는 (1) PoseNet 고정 후 EDefNet 훈련, (2) DisplaceNet 훈련, (3) 얼굴·손 파라메터 네트워크 미세조정 순으로 진행돼 각 모듈이 서로 보완하도록 설계되었다.
실험 결과는 다양한 옷 종류(티셔츠, 스커트, 드레스 등)와 복잡한 움직임에 대해 기존 최첨단 단일 카메라 방법들(MonoPerfCap, LiveCap, DeepCap 등)보다 정량적 오류가 20‑30% 감소하고, 정성적으로는 옷 주름·주름살·얼굴 표정·손가락 움직임이 뚜렷하게 재현된다는 점을 보여준다. 또한, 훈련 후 추론 시에는 단일 RGB 프레임당 약 30 ms의 처리 시간을 기록해 실시간 응용도 가능함을 입증한다.
요약하면 HiFECap은 (1) 다단계 코스‑투‑파인 네트워크 설계, (2) 가시성·강성 인식 정점 변위 그래프, (3) 파라메트릭 얼굴·손 모델 통합, (4) 약한 지도 다중 손실 기반 학습이라는 네 가지 핵심 기법을 결합해 단일 카메라 환경에서도 고품질·고주파·전신 퍼포먼스 캡처를 실현한 혁신적인 시스템이다.
댓글 및 학술 토론
Loading comments...
의견 남기기