기하학적 앵커로 강화하는 견고한 선호 정렬

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GAPO는 고정된 레퍼런스 대신 현재 정책의 작은 ℓ₂ 반경 안에서 최악의 경우를 가정한 ‘기하학적 앵커’를 만든다. 앵커와 정책 사이의 보상 차이인 Anchor Gap을 이용해 각 선호 쌍을 가중치로 재조정함으로써, 지역적으로 불안정한(소음이 섞인) 신호는 감소시키고, 견고한 신호는 강조한다. 이론적으로는 로컬 샤프니스와 연결되고, 실험에서는 다양한 노이즈 환경과 여러 LLM 벤치마크에서 기존 DPO·SimPO·α‑DPO 등을 능가한다.

상세 분석

본 논문은 직접 선호 최적화(DPO)가 고정된 레퍼런스 정책에 의존함으로써 학습 진행 중 정책이 이동하면 레퍼런스와의 분포 불일치가 심화되고, 이로 인해 노이즈가 섞인 선호 데이터가 과도하게 활용되는 문제점을 지적한다. 레퍼런스‑프리 방식인 SimPO는 레퍼런스를 없애지만 보상 드리프트와 일반 능력 저하 위험을 안고 있다. GAPO는 이러한 양극단의 단점을 보완하기 위해 ‘기하학적 앵커’를 도입한다. 구체적으로, 현재 파라미터 θ에 대해 ℓ₂ 반경 ρ 이내에서 마진 M_i(θ)=p_θ(x_i,y_w,i)-p_θ(x_i,y_l,i)를 최소화하는 최악의 교란 ϵ_i*를 찾아, 이를 근사하기 위해 배치 전체의 그라디언트 방향으로 ϵ_B≈-ρ∇θ(∑{j∈B}M_j(θ))/‖∇θ(∑{j∈B}M_j(θ))‖ 를 적용한다. 이렇게 얻은 앵커 파라미터 \tildeθ=θ+ϵ_B는 ‘비관적 기준점’ 역할을 하며, 정책과 앵커 사이의 보상 차이 Γ_i(θ)=M_i(θ)-sg(M_i(\tildeθ))를 Anchor Gap이라 정의한다.

GAPO는 로지스틱 손실 L_GAPO(θ)=−∑_i log σ(β·Γ_i(θ)−γ) 를 최소화한다. 손실을 θ에 대해 미분하면 ∇_θL_GAPO(θ)=−E

기하학적 앵커로 강화하는 견고한 선호 정렬

초록

상세 분석

댓글 및 학술 토론

의견 남기기