알파다이버전스 선호 최적화
읽는 시간: 3 분
...
📝 원문 정보
- Title: APO: Alpha-Divergence Preference Optimization
- ArXiv ID: 2512.22953
- 발행일: 2025-12-28
- 저자: Wang Zixian
📝 초록 (Abstract)
현대 정렬 실무에서는 두 가지 발산(regime)이 주도적 역할을 한다. 지도 미세조정과 다수의 증류형 목표는 암묵적으로 전방 KL KL(q ∥ π_θ)를 최소화하여 안정적인 모드 커버링 업데이트를 제공하지만, 고보상 모드를 충분히 활용하지 못하는 경우가 많다. 반면 PPO 기반 온라인 RLHF는 역방향 KL KL(π_θ ∥ q)에 더 가깝게 동작해 모드 탐색적 개선을 가능하게 하지만 모드 붕괴 위험을 내포한다. 최근 앵커링 방식(예: ADPO)은 앵커 좌표계에서 투영을 수행하면 안정성을 크게 향상시킬 수 있음을 보여주었으나, 대부분 단일 발산에만 의존한다. 본 논문에서는 α‑다이버전스( Csiszár α‑divergence)를 이용해 전방 KL과 역방 KL 행동을 연속적으로 보간할 수 있는 앵커링 프레임워크인 APO(α‑Divergence Preference Optimization)를 제안한다. α에 의해 매개되는 통합 그래디언트 동역학을 유도하고, 그래디언트 분산 특성을 분석했으며, 정책이 개선되고 자신감 있게 보정될 때만 커버리지에서 탐색으로 전환되는 보상 + 신뢰도 가드 α 스케줄을 제안한다. Qwen‑3‑1.7B 모델을 수학 레벨 3 과제에 적용한 실험 결과, APO는 GRPO와 GSPO 베이스라인과 경쟁적인 성능을 보이며 훈련 안정성을 유지한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 최근 대형 언어 모델(LLM) 정렬 연구에서 핵심적인 두 발산 패러다임, 즉 전방 KL( KL(q ∥ π_θ) )과 역방 KL( KL(π_θ ∥ q) ) 사이의 트레이드오프를 새로운 시각으로 재조명한다. 전방 KL은 “모드 커버링” 특성을 갖고, 정책이 목표 분포 q의 모든 모드를 골고루 탐색하도록 유도한다. 이는 학습 과정에서 급격한 파라미터 변동을 억제해 안정성을 확보하지만, 고보상 영역에 대한 집중도가 낮아 성능 한계에 봉착한다. 반면 역방 KL은 “모드 탐색” 특성을 띠어, 정책이 q의 고확률 영역에 빠르게 수렴하도록 만든다. PPO‑style 온라인 RLHF가 이 방식을 채택함으로써 인간 피드백에 기반한 고보상 행동을 빠르게 학습할 수 있지만, 특정 모드에 과도히 집중해 다른 유용한 모드를 놓치는 모드 붕괴 위험이 존재한다.이러한 양극단을 보완하려는 시도로 등장한 앵커링 방법(ADPO 등)은 정책 파라미터를 고정된 앵커 좌표계에 투영함으로써, 발산 최소화 과정에서 발생하는 급격한 기울기 변동을 완화한다. 그러나 기존 앵커링 기법은 전방 KL 혹은 역방 KL 중 하나에만 국한돼, 두 발산의 장점을 동시에 활용하지 못한다는 한계가 있다.
APO는 이 문제를 Csiszár α‑다이버전스로 일반화함으로써, α ∈
📄 논문 본문 발췌 (Translation)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.