작은 차이의 선호도도 활용하라 – MixDPO로 최적화 전략 재정의

작은 차이의 선호도도 활용하라 – MixDPO로 최적화 전략 재정의
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 선호도 쌍의 난이도를 활용해 학습 순서를 설계하고, 어려운(소‑마진) 쌍은 SFT 손실로, 쉬운(대‑마진) 쌍은 DPO 손실로 최적화하는 MixDPO 방식을 제안한다. 실험 결과, 기존 DPO 및 변형 모델에 비해 AlpacaEval 2 등 3개 벤치마크에서 일관된 성능 향상을 보였다.

상세 분석

본 연구는 LLM 정렬에서 선호도 쌍의 “마진(점수 차이)”을 난이도 지표로 활용한다. 마진이 클수록 쉬운 쌍, 작을수록 어려운(모호한) 쌍으로 정의한다. 기존 DPO, KTO, SimPO 등은 모든 쌍에 동일한 선호도 기반 손실을 적용해 작은 마진 쌍이 로그 가능도 감소(‘likelihood displacement’) 현상을 일으키며 학습을 불안정하게 만든다. 저자들은 이러한 현상을 실험적으로 확인하고, 같은 쌍을 SFT(지도 학습) 손실로 학습하면 로그 가능도가 감소하지 않아 안정적인 신호를 제공한다는 점을 발견했다. 이를 바탕으로 두 단계 커리큘럼을 설계한다. ① 마진 기준으로 데이터를 내림차순 정렬해 쉬운 쌍부터 학습한다(전통적 커리큘럼 학습). ② 학습 중 마진이 사전 정의 임계값 이하인 경우 DPO 손실 대신 SFT 손실을 적용한다. 이때 SFT는 선택된 응답을 그대로 복제하도록 학습하므로, 작은 차이의 쌍에서도 모델이 ‘선호’를 명확히 구분하도록 돕는다. 실험에서는 UltraFeedback와 Argilla 데이터셋을 사용해 마진 분포를 시각화하고, 마진이 큰 쌍이 학습 속도와 보상 정확도, 보상 마진 모두에서 우수함을 확인했다. MixDPO는 이러한 관찰을 토대로 쉬운 쌍에선 DPO로 강한 선호 신호를, 어려운 쌍에선 SFT로 안정성을 보장한다. 결과적으로 AlpacaEval 2 LC(길이 제어) 승률, 전체 승률, 그리고 다른 DPO 변형(CPO, IPO, KTO, SimPO, SelectiveDPO) 대비 평균 2~4%p의 개선을 기록했다. 추가 실험에서는 다른 베이스 모델(LLaMA‑3‑8B 외)와 Agrilla‑7k 데이터셋에서도 동일한 이득을 확인, 제안 방법의 일반화 가능성을 입증했다.


댓글 및 학술 토론

Loading comments...

의견 남기기