테스트 시점 표현 정렬 가이던스로 이미지 생성 제어

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 자기지도 비전 백본(DINOv2)과 정렬된 확산 모델을 활용해, 추론 단계에서 이미지 특징을 직접 조건으로 삼는 REPA‑G(Representation‑Aligned Guidance) 프레임워크를 제안한다. 특징 토큰의 유사도 잠재함수(potential)를 최적화함으로써, 텍스트 프롬프트나 클래스 라벨 없이도 세밀한 텍스처부터 전역 의미까지 자유롭게 제어한다. 이론적 분석을 통해 수정된 SDE가 목표 잠재분포(tilted distribution)를 샘플링함을 증명하고, ImageNet·COCO 실험에서 높은 품질·다양성을 입증한다.

상세 분석

REPA‑G는 두 가지 핵심 아이디어에 기반한다. 첫째, 확산 모델을 학습할 때 중간 표현을 사전 학습된 자기지도 백본(주로 DINOv2)과 정렬(representation alignment)한다. 정렬 손실 L_align은 모델의 내부 피처 f_θ(x_t, t)를 백본 ϕ(x_0)와 유사하게 만들며, 이는 이후 추론 단계에서 동일한 피처 공간을 공유하게 한다. 논문은 정렬이 전역적인 의미 구조와 지역적인 텍스처 정보를 모두 보존하도록 설계됐으며, 실험적으로 정렬되지 않은 모델은 클러스터링 시 의미적 일관성이 결여됨을 보여준다.

둘째, 추론 시점에 “잠재함수” V(h, h*)=⟨h, h*⟩를 정의하고, 이를 기존 스코어 함수 ∇_x log p_t(x_t)에 가중치 λ를 곱해 추가한다. 이는 SDE(4)에 ∇V 항을 삽입하는 형태이며, 논문은 이를 “tilted distribution” ˜p_0(x; x_c) ∝ p_0(x)·exp(λ·V(ϕ(x), ϕ(x_c))) 를 샘플링하는 과정으로 수학적으로 증명한다(Assumption 4.1·4.2, Lemma 4.3, Proposition 4.4). 즉, 원하는 이미지 특징 ϕ(x_c)와의 유사도를 최대화하도록 확산 경로를 편향한다.

조건 방식은 세 가지 스케일로 구분된다. (1) 전역 평균 토큰: 전체 이미지의 평균 피처를 사용해 “rabbit”, “car” 등 추상적 개념을 제어한다. (2) 마스크된 토큰: 이미지의 특정 영역을 마스크하고 해당 영역의 피처만 추출해 형태·포즈를 보존한다. (3) 단일 패치 토큰: 작은 텍스처 패치를 선택해 세밀한 질감이나 색상을 직접 전달한다. 이러한 다중 스케일 조합은 복합 개념(composition)에도 적용 가능해, 예를 들어 “rabbit + lava”와 같이 서로 다른 토큰을 동시에 최적화한다.

실험에서는 ImageNet‑trained SiT(Stable Diffusion 기반) 모델에 REPA‑G를 적용해, 텍스트 프롬프트 대비 더 정확하고 일관된 결과를 얻었다. 특히, 텍스트가 애매모호하거나 클래스 라벨이 너무 거친 경우에도, 원하는 시각적 속성을 직접 지정함으로써 높은 FID·CLIPScore를 달성했다. 또한, 토이 예시에서 제안된 잠재함수에 따라 목표 분포를 정확히 샘플링함을 검증했으며, 정렬된 피처 공간이 클러스터링 시 의미적 그룹을 형성함을 시각화했다.

한계점으로는 (i) 정렬이 충분히 이루어졌다는 전제(전역 최적성)와 (ii) Jensen Gap이 사라진다는 가정이 필요하다. 실제 대규모 모델에서는 완전한 전역 최적을 달성하기 어려울 수 있다. 또한, λ 값 선택에 따라 과도한 편향이 발생해 다양성이 감소할 위험이 있다. 향후 연구는 자동 λ 튜닝, 다중 백본 앙상블, 그리고 비정형(예: 영상, 3D) 데이터에 대한 확장 가능성을 탐색할 여지가 있다.

테스트 시점 표현 정렬 가이던스로 이미지 생성 제어

초록

상세 분석

댓글 및 학술 토론

의견 남기기