단계별 분해를 활용한 이산 확산 궤적 정렬 방법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 이산 확산 모델을 보상 함수에 맞추어 정렬하기 위해, 전체 확산 궤적을 단계별 후방 확률(posterior) 정렬 문제로 분해하는 오프라인 선호 최적화 기법인 SDPO를 제안한다. 단계별 정렬은 정확한 로그우도와 보상 평가를 가능하게 하며, 보상이 청정 시퀀스 x₀에만 정의돼도 적용할 수 있다. 이론적으로 단계별 정렬이 전체 궤적 정렬과 동등함을 증명하고, 다양한 보상 형태에 일반화 가능한 손실 함수를 도출한다. DNA 서열 설계, 단백질 역접힘, 언어 모델링 등 세 분야에서 기존 RL 기반 방법보다 크게 향상된 성능을 기록한다.

상세 분석

이 논문은 이산 확산 모델이 갖는 마코프 체인 구조와 기존 RLHF 방식이 겪는 역전파 비효율성을 근본적으로 해결하고자 한다. 핵심 아이디어는 전체 확산 궤적 pθ(x₀:T | c) 의 정렬 목표를, 각 시간 단계 t 에서의 후방 확률 ĥpθ(x₀ | x_t, c) 를 목표로 하는 일련의 서브 문제로 분해하는 것이다. 이렇게 하면 (1) 각 단계별 후방 확률은 마스크된 이산 공간에서 정확히 계산 가능하고, (2) 보상 r(x₀, c) 가 청정 시퀀스에만 정의돼도 단계별 정렬에 그대로 활용할 수 있다.

수학적으로는 원래의 궤적 정렬 목표식(5)을
\

단계별 분해를 활용한 이산 확산 궤적 정렬 방법

초록

상세 분석

댓글 및 학술 토론

의견 남기기