3D 인식 기반 제로샷 초상화 맞춤 생성 DiffPC
초록
DiffPC는 3D 얼굴 모델을 활용해 참조 인물의 정체성을 보존하면서 텍스트 프롬프트에 따라 표정·포즈·배경을 자유롭게 제어할 수 있는 제로샷 초상화 커스터마이징 프레임워크이다. ID‑Encoder와 ID‑Ctrl, ID‑Injector 모듈을 결합해 고품질 얼굴 디테일을 유지하고, 자체 구축한 ID‑centric 데이터셋으로 학습해 텍스트‑이미지 일치도 향상시켰다.
상세 분석
DiffPC는 기존 제로샷 초상화 방법이 안고 있던 정체성 보존과 얼굴 제어의 한계를 3D‑aware 접근으로 극복한다. 핵심은 SMIRK 기반의 3D 얼굴 예측기로, 입력된 참조 이미지와 목표 이미지에서 각각 아이덴티티 파라미터(α), 표정 파라미터(β), 포즈 파라미터(γ)를 추출한다. 이후 α는 그대로 유지하고 β와 γ만 교체해 목표 표정·포즈를 반영한 3D 메쉬를 재구성하고, 이를 미분 가능한 렌더러(R3D)로 2D 이미지(I3D)로 투사한다.
ID‑Encoder는 ArcFace와 CLIP‑Image를 이용해 전역 임베딩(Fglobal)과 지역 임베딩(Flocal)을 추출하고, 선형 변환 π1, π2를 거쳐 동일 차원으로 맞춘 뒤 트랜스포머 디코더(Mdec)로 융합해 정교한 ID 특징(F′id)을 만든다.
ID‑Ctrl은 I3D를 VAE 인코더로 잠재코드(z3d)로 변환하고, 복제된 UNet 인코더·중간 블록에 삽입해 이미지‑레벨 조건으로 활용한다. 이를 통해 노이즈 제거 과정에서 3D 기하학적 정보가 정체성 특징과 정렬된다.
ID‑Injector는 최종 UNet 디노이저에 c_id(정체성·제어 정보)를 직접 주입해, 기존 Cross‑Attention 기반 텍스트 조건과 결합함으로써 정체성 손실을 최소화하고 표정·포즈 제어 정확도를 높인다.
학습 단계에서는 저작권 문제와 데이터 품질을 고려해 자동 파이프라인으로 10만 장 이상의 고품질 인물 사진을 수집·정제한 ID‑centric 데이터셋을 구축하였다. 이 데이터셋으로 텍스트‑이미지 정합 손실과 얼굴 유사도 손실을 동시에 최적화해, 텍스트 프롬프트와의 일관성을 유지하면서도 인물 고유의 세부 특징을 보존한다.
실험에서는 기존 PhotoMaker‑V2, FlashFace, PuLID 등과 비교해 ID 보존(FID‑ID), 표정·포즈 제어 정확도, 텍스트‑이미지 일치(COS‑SIM) 모두에서 현저히 우수한 결과를 보였으며, SDXL 기반 다양한 스타일 모델과도 호환성을 확인했다.
댓글 및 학술 토론
Loading comments...
의견 남기기