다중 확산 모델 집합을 통한 세밀 제어 향상
초록
본 논문은 훈련 없이 여러 조건부 확산 모델의 잠재 공간 정보를 결합하는 AMDM(다중 확산 모델 집합) 알고리즘을 제안한다. 구형(구면) 보간과 편차 최적화를 이용해 서로 다른 모델이 강조하는 위치·속성·스타일 등을 동시에 반영함으로써 기존 방법보다 미세한 제어 능력을 크게 향상시킨다. 실험 결과는 AMDM이 고품질 이미지를 유지하면서 세밀한 조건을 정확히 구현한다는 것을 보여준다.
상세 분석
본 연구는 최근 확산 모델이 조건부 제어에서 보여준 한계를 극복하기 위해 “잠재 데이터 공간에서의 직접 집합”이라는 새로운 관점을 제시한다. 기존의 선형 가중치 방식은 점수 공간이나 파라미터 공간에서 모델을 혼합하지만, 서로 다른 조건이 상호 직교(orthogonal)하지 않을 경우 분포 이동(distribution shift) 문제가 발생한다. 저자들은 이를 해결하기 위해 동일한 확산 생태계(예: Stable Diffusion 기반 모델) 내에서만 집합이 가능하다는 이론적 전제를 세운다. 핵심은 모든 모델이 동일한 고차원 가우시안 초기 분포를 공유하고, 시간 t에서의 잠재 공간 Mₜ가 구면 형태에 근접한다는 사실이다. 이를 기반으로 제안된 **구형 집합(Spherical Aggregation)**은 두 모델이 생성한 잠재 벡터 z₁^{t‑1}, z₂^{t‑1}를 구면 보간(slerp) 방식으로 결합한다. 보간 가중치 w는 각 모델의 기여도를 조절하며, 구형 보간은 벡터의 노름을 보존하면서 각도 차이를 최소화한다는 수학적 보장을 제공한다(정리 3.1).
하지만 실제 샘플링 과정에서는 두 모델이 생성한 벡터가 정확히 같은 구면에 놓이지 않을 수 있다. 이를 보정하기 위해 **편차 최적화(Deviation Optimization)**를 도입한다. 편차 최적화는 결합된 벡터 z′{t‑1}를 각 모델의 평균 μ{θ}(·) 방향으로 작은 단계 η만큼 이동시켜, 고차원 가우시안 쉘에 다시 투영한다. 정리 3.2와 그 보조 정리 3.3은 σ_t → 0(확산이 거의 없어지는) 극한에서 이 과정이 ODE 흐름에 대한 매니폴드 투영과 동일함을 증명한다. 따라서 편차 최적화는 확산 과정의 노이즈가 줄어들수록 더욱 정확히 작동한다.
알고리즘 흐름은 크게 세 단계로 구성된다. (1) 초기 고차원 가우시안 단계 T에서 두 모델의 샘플을 구형 보간으로 결합한다. (2) t < T 구간에서 매 단계마다 구형 보간과 편차 최적화를 반복한다. (3) 마지막 몇 단계에서는 직접 샘플링을 수행해 연산 비용을 절감한다. 이 설계는 “구형 집합 → 편차 보정 → 직접 샘플링”이라는 직관적인 기하학적 경로를 따르며, 복잡한 추가 연산 없이도 기존 확산 파이프라인에 쉽게 삽입될 수 있다.
실험에서는 스타일, 위치, 속성, 상호작용 등 네 가지 세밀 제어 축을 각각 전문화한 세 모델(A, B, C)을 구축하고, AMDM을 적용해 하나의 통합 이미지 생성 결과를 비교한다. 정량적 지표(FID, CLIPScore, Attribute Consistency)와 정성적 시각 평가 모두에서 AMDM이 기존 단일 모델보다 현저히 높은 성능을 보였다. 특히 겹치는 바운딩 박스와 복합 스타일 조건에서 발생하던 속성 누수(attribute leakage) 문제가 크게 감소하였다.
이 논문의 주요 공헌은 (1) 훈련 없이도 서로 다른 조건부 확산 모델을 잠재 공간에서 안전하게 결합하는 이론적 프레임워크를 제공, (2) 구형 보간과 편차 최적화라는 간단하면서도 효과적인 알고리즘을 제시, (3) 실험을 통해 “초기 단계는 위치·속성·스타일 같은 거친 특성을, 후반부는 품질·일관성을 담당한다”는 확산 모델의 단계적 특성을 재발견했다는 점이다. 이러한 접근은 기존 데이터셋·아키텍처 설계에 대한 의존도를 크게 낮추어, 연구자들이 개별적인 미세 제어 모델을 자유롭게 개발하고, 필요에 따라 AMDM으로 손쉽게 통합할 수 있는 새로운 패러다임을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기