자동회귀 직접 선호 최적화: ADPO의 이론과 실천

자동회귀 직접 선호 최적화: ADPO의 이론과 실천
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 DPO가 응답 전체에만 적용되는 Bradley‑Terry 모델을 사용함으로써 발생하는 자동회귀 모형과의 불일치를 해소하고자, 프리픽스(접두사) 공간에 자동회귀 가정을 사전에 도입한 새로운 프레임워크 ADPO를 제안한다. ADPO는 손실 함수에서 시그모이드 내부의 합산을 외부로 이동시키는 형태로, 토큰 길이와 피드백 길이 두 가지 길이 측정을 명시적으로 구분한다. 이론적으로 모든 보상 함수를 자동회귀 모델로 재파라미터화할 수 있음을 증명하고, DPO는 µ′≡1인 특수 경우임을 보여준다.

상세 분석

ADPO는 기존 DPO가 “응답 전체” 수준의 Bradley‑Terry(BT) 모델을 전제로 하는 한계에 주목한다. DPO에서는 학습 모델 πθ가 자동회귀 구조를 갖지만, 보상 기반 Boltzmann 분포 p₂는 전체 시퀀스에 대해 정의되므로 자동회귀와 구조적 불일치가 발생한다. 논문은 이를 해결하기 위해 출력 공간 Y의 프리픽스 폐쇄 Y를 정의하고, 각 프리픽스 y≤i에 대해 보상 r (x, y≤i) 를 부여한다. 이렇게 하면 BT 모델을 프리픽스 수준에서 적용할 수 있게 되며, p₁과 p₂ 모두 자동회귀 형태를 띤다.

핵심 수식은 ADPO 손실 L_ADPO = –E_{(x,Y)∼D}


댓글 및 학술 토론

Loading comments...

의견 남기기