데이터 분포 모르는 상황에서 직접 선호 최적화의 과최적화 방지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 데이터 생성 분포를 알 필요 없이 직접 선호 최적화(DPO)의 과최적화 문제를 해결하는 새로운 알고리즘 PEPO( pessimistic ensemble based preference optimization)를 제안한다. PEPO는 선호 데이터의 서로 겹치지 않는 부분집합으로 학습된 여러 정책을 앙상블하고, 최악의 경우를 가정한 최소값 집계 방식을 통해 보수적(pessimistic) 결정을 내린다. 탭ular 환경에서 단일 정책 집중도(single‑policy concentrability)만을 요구하는 샘플 복잡도 보장을 제공하며, 실제 LLM 사후 학습 실험에서도 DPO 대비 일관된 성능 향상을 보인다.

상세 분석

PEPO는 기존 DPO가 보이는 과최적화 현상을 근본적으로 억제하기 위해 ‘보수성(pessimism)’이라는 개념을 도입한다. 구체적으로, 전체 선호 데이터 D를 L개의 동등한 서브셋 {D₁,…,D_L}으로 분할하고, 각 서브셋에 대해 저용량 LoRA 어댑터를 이용해 독립적인 정책 π̃_ℓ을 학습한다. 이때 손실 함수는 표준 시그모이드 대신 오른쪽으로 이동된 ‘보수적 시그모이드(σ_pess)’를 사용한 변형 DPO 손실 L_pessDPO(π;D_ℓ)로 정의된다. σ_pess(x,λ)=σ(x−log(1+λe^{x/2}))는 승리 확률을 의도적으로 낮추어, 추정된 보상이 실제 보상보다 과대평가되는 위험을 완화한다.

학습된 L개의 정책은 ‘최소값 집계(minimum aggregation)’를 통해 최종 정책 π_out을 구성한다. 구체적으로, 각 행동 a에 대해 π_out(a|x)=min_ℓ π̃_ℓ(a|x)·exp(−B·p_tie(x,a)/β) 로 정의되며, 여기서 p_tie은 앙상블 간 불일치를 반영하는 상한값이다. 이 집계 방식은 모든 정책이 동일하게 높은 확신을 가진 행동만을 선택하도록 강제함으로써, 데이터가 충분히 커버되지 않은 영역에서의 과도한 확신을 방지한다.

이론적 분석은 탭ular MDP 설정을 가정하고, 단일 정책 집중도 C_π만을 이용해 샘플 복잡도 O(C_π·log|Π|/ε²) 를 도출한다. 이는 기존 DPO가 요구하는 전 정책 집중도(all‑policy concentrability)보다 훨씬 완화된 조건이며, 데이터 생성 분포 π_data에 대한 접근이 전혀 없어도 보수적 보장을 제공한다.

실험에서는 Zephyr‑7B, Llama‑3.1‑8B, Mistral‑7B, Yi‑34B 등 다양한 규모의 LLM에 PEPO를 적용하였다. 검증 결과, DPO 대비 과최적화 현상이 현저히 감소하고, 인간 평가 및 자동 메트릭에서 일관된 품질 향상이 관찰되었다. 특히, 대규모 모델에서도 앙상블 크기 L을 적절히 선택하면 연산 비용 증가가 제한적이며, 리젝션 샘플링을 통한 정확한 정책 샘플링이 가능함을 보였다.

요약하면, PEPO는 (1) 데이터 분포 가정 제거, (2) 보수적 시그모이드와 앙상블 최소값 집계를 통한 과최적화 억제, (3) 단일 정책 집중도 기반의 이론적 샘플 복잡도 보장, (4) 실제 LLM 사후 학습에서의 실용적 성능 향상이라는 네 가지 핵심 기여를 제공한다.

데이터 분포 모르는 상황에서 직접 선호 최적화의 과최적화 방지

초록

상세 분석

댓글 및 학술 토론

의견 남기기