EMA 가이드를 활용한 자기 교정 확산 샘플링
초록
본 논문은 확산 트랜스포머의 어텐션을 추론 시점에 지수 이동 평균(EMA)으로 대체하는 EMA Guidance(EMAG) 를 제안한다. 통계 기반 적응형 레이어 선택 규칙을 통해 고주파 정보를 점진적으로 억제하고, 의미를 보존한 미세한 부정 샘플을 생성한다. 이러한 “hard negative”는 모델이 놓치기 쉬운 섬세한 결함을 드러내어, 기존 Classifier‑Free Guidance(CFG) 대비 Human Preference Score(HPS)를 +0.46 향상시키며, APG·CADS와도 자연스럽게 결합된다.
상세 분석
EMAG는 기존 CFG가 조건부와 무조건부 예측을 단순히 선형 결합하는 방식과 달리, 약한(negative) 신호를 생성하는 과정에서 세밀한 제어를 가능하게 한다. 핵심 아이디어는 어텐션 매트릭스 Aₜ를 현재 타임스텝의 지수 이동 평균 Eₜ와 교체하는 것으로, Eₜ는 β 파라미터(반감기 H=50)를 이용해 과거 어텐션을 누적한다. β가 클수록 오래된 어텐션이 더 많이 반영되어 고주파 세부 정보가 억제되고, 전역 구조는 유지된다.
레イヤ 선택은 통계 기반 적응 규칙에 의해 결정된다. 각 타임스텝마다 어텐션 분산·평균을 측정해, 변동성이 큰 레이어를 우선적으로 EMA 교체 대상에 할당한다. 이를 통해 모델이 현재 단계에서 가장 “민감하게” 작동하는 레이어에만 부정 효과를 가함으로써, 불필요한 전체 손실을 방지한다.
알고리즘 1·2는 무조건 및 조건부 상황을 모두 포괄한다. 무조건부에서는 원본 denoiser ϵθ와 EMA‑교체된 약한 모델 ϵ′θ의 출력 zₜ, ẑₜ를 구하고, wₑ 스케일을 곱해 차이를 보정한다. 조건부에서는 추가로 CFG 스케일 w_cfg를 적용해 최종 업데이트 𝑧̄ₜ를 만든다. 이 구조는 기존 CFG에 EMAG를 “플러그인” 형태로 삽입할 수 있게 하며, CFG+EMAG ≡ EMAG 로 표기한다.
실험에서는 DiT와 MMDiT(SD3) 백본을 사용해 클래스 조건 및 텍스트‑투‑이미지 두 시나리오를 평가했다. COCO‑2014 검증 셋에서 동일한 샘플링 스텝·평가 파이프라인을 유지한 채, EMAG 단독 적용 시 HPS가 29.22 → 29.68(+0.46)으로 상승했다. 또한 APG·CADS와 병합했을 때 각각 추가적인 HPS 상승을 기록, “상호 보완적”임을 입증했다.
비교 대상인 SA‑G, SEG, ERG, S²‑Guidance 등은 대체로 눈에 띄는 고주파 손실(blur, noise)로 부정 샘플을 만들지만, EMAG는 미세한 의미적 변형을 제공한다. 그림 2·3에서 확인할 수 있듯, EMAG는 전역 구조는 유지하면서 세부 텍스처와 색상 차이를 미세하게 조정해, 모델이 “hard negative”를 정교히 교정하도록 유도한다.
한계점으로는 EMA 업데이트가 초기 타임스텝에서 불안정할 수 있어 δₜ(워밍업) 파라미터 튜닝이 필요하고, β값 선택이 데이터셋·모델에 따라 민감하게 작동한다는 점이다. 또한 현재 구현은 트랜스포머 기반 확산에 국한되며, CNN 기반 모델에 대한 적용 가능성은 추가 연구가 요구된다.
전반적으로 EMAG는 훈련 없이 어텐션 레이어를 동적으로 조정함으로써, 부정 샘플의 난이도와 granularity를 정밀하게 제어하는 새로운 가이드라인을 제공한다. 이는 고품질 이미지 생성, 인간 선호도 기반 평가, 그리고 다양한 조건부 생성 작업에서 기존 CFG의 한계를 보완하는 실용적 솔루션이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기