반복적 중요도 기반 확산 모델 파인튜닝

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Doob의 h‑transform을 이용해 사후분포를 효율적으로 샘플링하기 위한 자기지도 학습 알고리즘을 제안한다. 초기 제어 함수를 추정한 뒤, 경로 기반 중요도 가중치를 이용해 합성 데이터를 재샘플링하고, 이를 통해 스코어 매칭 손실을 최소화함으로써 제어 함수를 반복적으로 개선한다. 클래스 조건부 샘플링, 역문제, 텍스트‑투‑이미지 보상 파인튜닝 등 다양한 다운스트림 작업에서 효과를 입증한다.

상세 분석

이 연구는 확산 모델의 역 SDE에 최적 제어 u*_t = ∇_x ln h_r_t(x)를 삽입해 목표 분포 p̃(x) ∝ p_data(x)·exp(r(x)/λ)를 구현하려는 문제를 다룬다. 기존 방법들은 직접 u*t를 추정하기 어렵기에, 추정된 제어 u_t를 파라미터화한 신경망을 사후 학습시키는 방식을 사용한다. 저자들은 세 단계의 반복 과정을 제안한다. 첫째, 현재 제어 u_k를 이용해 P{u_k} 경로를 샘플링한다. 둘째, 각 경로에 대해 중요도 가중치 α_k = min{1, exp

반복적 중요도 기반 확산 모델 파인튜닝

초록

상세 분석

댓글 및 학술 토론

의견 남기기