LCUDiff 인간 신체 복원을 위한 고용량 잠재공간 확장 확산 모델
초록
LCUDiff은 기존 4채널 잠재공간을 16채널로 확장하고, 채널 분할 증류(CSD)와 사전 보존 적응(PPA) 기법을 도입해 인간 신체 복원(HBR)에서 고주파 디테일을 효과적으로 복구한다. 또한 복원 품질 점수를 활용한 디코더 라우터(DeR)로 샘플별 최적 디코더를 선택해 한 단계 추론 효율성을 유지하면서 시각적 품질을 크게 향상시킨다.
상세 분석
LCUDiff은 인간 중심 이미지 복원에서 VAE가 생성하는 잠재공간의 용량 부족을 근본적으로 해결한다는 점에서 혁신적이다. 기존 Stable Diffusion 기반 LDM은 8배 다운샘플링 후 4채널(μ,σ)로 압축하는데, 이는 고주파 텍스처와 미세 구조를 크게 손실한다. 논문은 16채널 잠재공간을 도입하고, 첫 4채널을 ‘앵커 채널’로 고정한 채 채널 분할 증류(CSD)를 적용한다. CSD는 L1 손실을 통해 앵커 채널을 사전 학습된 4채널 VAE와 정렬시키면서, 나머지 12채널은 고주파 잔차를 학습한다. 이렇게 하면 기존 diffusion prior와의 호환성을 유지하면서도 추가 채널이 세밀한 디테일을 보존한다.
그러나 16채널 잠재공간을 그대로 4채널 UNet에 입력하면 분포 불일치가 발생한다. 이를 해결하기 위해 사전 보존 적응(PPA)이라는 두 갈래 입력 구조를 설계했다. 하나는 고정된 4채널 앵커 경로, 다른 하나는 16채널 전체 경로이며, 퓨전 스케줄을 통해 학습 초기에 앵커 경로에 의존하고 점차 16채널 경로로 전환한다. 이 과정은 KL 손실과 CSD 손실을 동시에 최소화해 훈련 안정성을 확보한다.
또한 복원 품질 점수(예: PSNR, DISTS)를 기반으로 원본 4채널 디코더와 새 16채널 디코더 중 최적을 선택하는 디코더 라우터(DeR)를 도입했다. DeR은 입력 잠재와 복원된 잠재를 결합해 작은 선형 레이어와 소프트맥스로 라우팅 결정을 내리며, 경량화된 구조 덕분에 추론 시간에 추가 비용이 거의 없다.
실험에서는 합성 및 실제 저품질 인간 이미지 데이터셋에서 LCUDiff이 기존 1‑step 및 다단계 diffusion 기반 복원 방법보다 PSNR와 DISTS 모두에서 우수한 성능을 보였다. 특히 ‘PSNR‑DISTS’ 트레이드오프 그래프에서 상위 좌상단에 위치해 고해상도와 인지적 품질을 동시에 달성한다는 점이 눈에 띈다. 한 단계 추론을 유지하면서도 VAE 용량을 4배 늘린 설계는 메모리와 연산량을 크게 증가시키지 않아 실시간 혹은 모바일 환경에서도 적용 가능성을 시사한다.
한계점으로는 16채널 VAE와 4채널 UNet 사이의 매핑을 위한 PPA가 추가 학습 단계와 하이퍼파라미터(퓨전 스케줄, λ값 등)를 필요로 하며, 복잡한 손실 구성(재구성, KL, CSD, 적대 손실)으로 최적화가 다소 까다로울 수 있다. 또한 ‘극단적’ 손상(예: 대규모 블러, 심한 압축)에서는 여전히 복원 품질이 제한될 가능성이 있다. 향후 연구에서는 16채널 UNet으로 완전한 확장, 혹은 채널 수를 동적으로 조절하는 메타‑학습 기법을 탐색하면 더욱 효율적인 고용량 잠재공간 활용이 가능할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기