블라인드 얼굴 이미지 한 장으로 3D 뷰를 한 번에 생성하는 NVB‑Face

블라인드 얼굴 이미지 한 장으로 3D 뷰를 한 번에 생성하는 NVB‑Face
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 저해상도·노이즈가 섞인 단일 얼굴 사진(블라인드 이미지)에서 바로 고품질 다중 뷰 이미지를 생성하는 단일 단계 프레임워크 NVB‑Face를 제안한다. 이미지 복원과 뷰 변환을 별도로 수행하는 기존 2단계 파이프라인과 달리, 저해상도 이미지에서 추출한 특징을 3D‑aware 라티스 공간으로 변환하고, 이를 Stable Diffusion 기반 디퓨전 모델에 입력해 일관된 새로운 시점의 얼굴을 복원한다. 실험 결과, 기존 복원 + 뷰 합성 방식보다 정체성 보존과 시점 일관성에서 크게 우수함을 보인다.

상세 분석

NVB‑Face는 크게 세 부분으로 구성된다. 첫 번째는 저품질 입력 이미지 I₍ref₎ 로부터 시공간 정보를 포함한 고해상도 특징 F₍ref₎ 를 추출하는 시간 인식 이미지 인코더(Eₙc)이다. 여기서는 기존 Stable Diffusion의 텍스트 조건화 대신 이미지 조건화를 적용하기 위해 cross‑attention 모듈을 재설계하고, LoRA 기법으로 Stable Diffusion 전체를 미세조정한다. 두 번째는 추출된 단일 뷰 특징을 3차원 라티스 볼륨 V₍out₎ 로 변환하는 Transformer 기반 3D Feature Construction Model(T₍rans₎)이다. 이 모듈은 입력 이미지의 카메라 파라미터 C₍in₎ 를 예측하는 Camera Predictor와 결합되어, 뷰 포인트 정보를 직접 학습한다. 이렇게 구성된 3D 볼륨은 원하는 목표 카메라 파라미터 Cᵢ 로 투영되어 새로운 뷰 특징 Fᵢ₍out₎ 를 만든다. 마지막으로 변환된 특징을 Stable Diffusion의 U‑Net에 cross‑attention 형태로 주입해 고해상도 이미지 x₀ 를 디노이즈한다. 전체 파이프라인은 두 단계 학습으로 진행된다. 1단계에서는 이미지 복원에 집중해 다중 뷰 데이터와 고품질 얼굴 데이터로 F₍ref₎ → x₀ 를 학습하고, 2단계에서는 T₍rans₎와 Camera Predictor만을 업데이트해 뷰 변환 정확도를 높인다. 이 설계는 복원 단계와 뷰 합성 단계 사이의 오류 전파를 차단하고, 라티스 공간에서 직접 3D‑aware 변환을 수행함으로써 다중 뷰 일관성을 크게 향상시킨다. 실험에서는 CodeFormer + PanoHead‑PTI 등 기존 2단계 방법에 비해 정체성 유사도(ID‑Score), LPIPS, FID 등 정량 지표에서 평균 15 % 이상 개선되었으며, 시각적으로도 눈에 띄는 디테일 복원과 포즈 일관성을 확인했다. 한계점으로는 카메라 파라미터 예측이 여전히 노이즈에 민감하고, 매우 극단적인 저해상도(≤16×16)에서는 3D 볼륨 구축이 불안정해지는 경향이 있다. 향후에는 보다 강건한 카메라 추정 모듈과 멀티스케일 3D 라티스 설계가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기