연속 레이블 제어 이미지 생성의 차세대 확산 모델: 매트릭스형 EDM과 적응형 근접 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 CCDM의 한계를 극복하고자, 최신 Elucidated Diffusion Model(EDM) 기반의 iCCDM을 제안한다. 매트릭스 형태의 전·후방 SDE와 PF‑ODE를 도입하고, 라벨‑조건부 노이즈 공분산을 행렬로 설계한다. 또한, 적응형 근접(vicinal) 학습 전략과 경량 CNN 기반 공분산 임베딩을 결합해 메모리·샘플링 효율을 크게 향상시켰다. 64×64부터 256×256까지 네 개 데이터셋에서 Stable Diffusion 3·FLUX.1·Qwen‑Image 등 최첨단 텍스트‑투‑이미지 모델을 능가하는 FID·IS·Label‑Consistency를 달성하였다.

상세 분석

iCCDM은 기존 CCDM이 DDPM 기반으로 구현돼 발생하던 두 가지 주요 문제—라벨 불일치와 긴 샘플링 경로—를 근본적으로 해결한다. 첫째, EDM의 “노이즈‑조건부” 파라미터화를 차용해, 시간 t 대신 노이즈 스케일 σ를 직접 제어한다. 여기서 저자들은 σ와 라벨 y를 결합한 공분산 행렬 Σ(t, y)를 정의하고, 이를 행렬 제곱근 형태로 전방 SDE에 삽입한다. 이렇게 하면 라벨에 따라 노이즈의 방향성과 크기를 다르게 조절할 수 있어, 연속적인 회귀 라벨(예: 각도, 온도)과 이미지 사이의 정밀한 매핑이 가능해진다.

둘째, 행렬형 확산 계수 G(t, y)=diag

연속 레이블 제어 이미지 생성의 차세대 확산 모델: 매트릭스형 EDM과 적응형 근접 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기