얼굴 정체성 보존을 위한 원스텝 맞춤 초상화 생성 FaceSnap
초록
FaceSnap은 Stable Diffusion 기반의 단일 이미지 입력만으로 고품질 맞춤 초상화를 한 번의 추론으로 생성한다. 저수준 CLIP 이미지 특징과 고수준 얼굴 ID 임베딩을 융합하는 Facial Attribute Mixer와 72개 랜드마크를 활용한 Landmark Predictor를 도입해 정체성 유지와 자세 제어를 동시에 달성한다. 실험 결과, 기존 최첨단 방법들을 능가하는 ID 보존력과 이미지 품질을 보인다.
상세 분석
본 논문은 텍스트‑투‑이미지 확산 모델의 급격한 발전을 배경으로, 개인화된 초상화 생성에서 “정체성 보존”과 “실시간 추론”이라는 두 가지 핵심 과제를 동시에 해결하고자 한다. 기존 방법은 크게 (1) 파인튜닝 기반으로 높은 정밀도를 제공하지만 추론 시 시간·자원 소모가 큰 접근과 (2) 사전 학습된 이미지 인코더를 이용해 한 번에 결과를 생성하지만 정밀도가 떨어지는 접근으로 나뉜다. FaceSnap은 두 접근의 장점을 취합해, 단일 레퍼런스 이미지와 텍스트 프롬프트만으로도 고해상도(1024×1024) 초상화를 즉시 생성한다.
핵심 모듈은 세 가지이다. 첫째, Facial Attribute Mixer는 사전 학습된 CLIP 이미지 인코더와 얼굴 인식 전용 모델(예: InsightFace)에서 추출한 ID 임베딩을 각각 선형 변환 후 차원 d 로 맞춘 뒤, CLIP 특징을 query, ID 임베딩을 key·value 로 하는 Cross‑Attention을 수행한다. 이를 통해 저수준의 세밀한 텍스처와 고수준의 인물 정체성을 동시에 포착한다. 이어서 learnable query 16개를 입력해 Transformer Decoder를 거쳐 최종 fused feature f_mix 를 얻는다.
둘째, Landmark Predictor는 3DMM 기반 DECA를 활용해 레퍼런스 이미지의 얼굴 형태와 드라이빙 이미지의 포즈·표정을 결합한다. 구체적으로, 레퍼런스의 shape 파라미터와 드라이빙의 pose·expression 파라미터를 합성해 새로운 3D 얼굴을 재구성하고, 이를 2D 평면에 투영해 72개 랜드마크를 생성한다. 이렇게 얻은 랜드마크는 원본 인물의 정체성을 유지하면서 원하는 자세를 반영한다는 점에서 기존 5‑point 제어보다 훨씬 풍부한 공간 정보를 제공한다.
셋째, **Face Fidelity Reinforce Network (FFRNet)**는 ControlNet 구조를 차용해 f_mix 와 72‑point 랜드마크를 UNet의 cross‑attention 레이어에 조건으로 삽입한다. 텍스트 프롬프트 대신 f_mix 를 직접 사용함으로써 모델이 정체성 정보에 집중하도록 유도한다. 학습 단계에서는 Stable Diffusion XL을 고정하고, 마스크드 디퓨전 손실과 ID 손실(코사인 유사도 기반)을 가중합한 L_total 로 최적화한다.
실험에서는 VGGFace, FFHQ, CelebA‑HQ 등 160 k 장의 얼굴 데이터를 800 k 장의 캡션과 함께 사용해 360 k 스텝을 학습하였다. 평가 지표는 CLIP‑face, FaceSim(얼굴 임베딩 유사도), CLIP‑T(텍스트‑이미지 정합도), FID, 그리고 추론 시간·VRAM 사용량이다. FaceSnap은 CLIP‑face와 FaceSim에서 가장 높은 점수를 기록했으며, FID도 기존 방법보다 낮아 이미지 품질이 우수함을 확인했다. 다만 텍스트 정합도(CLIP‑T)에서는 약간 뒤처지는데, 이는 정체성 보존에 비중을 두었기 때문으로 해석된다.
Ablation 연구에서는 (1) CLIP 특징만, (2) ID 임베딩만, (3) 단순 concat‑projection, (4) 제안한 Mixer 순으로 성능을 비교했으며, Mixer가 가장 높은 정체성 유지와 낮은 FID를 달성했다. 또한 FFRNet 없이, 랜드마크 없이, 단순 드라이빙 랜드마크만 사용했을 때와 비교해, Landmark Predictor와 FFRNet을 모두 적용했을 때 정체성 보존과 이미지 품질이 크게 향상됨을 보여준다.
한계점으로는 (i) 72‑point 랜드마크 추출에 3DMM 재구성이 필요해 약간의 전처리 비용이 발생한다, (ii) 매우 극단적인 포즈나 조명 변화에 대해서는 아직 완벽한 정체성 유지가 어려울 수 있다. 향후 연구에서는 경량화된 3D 얼굴 복원 모델과 멀티‑모달 텍스트‑이미지 정합 강화 방안을 탐색할 여지가 있다.
전반적으로 FaceSnap은 “튜닝‑프리 + 고정밀도”라는 이상적인 조합을 구현했으며, 실시간 맞춤 초상화 생성, 가상 아바타 제작, 디지털 마케팅 등 다양한 응용 분야에 바로 적용 가능할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기