메타 가중 온라인 샘플링으로 정렬 격차 해소

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MetaAPO는 메타‑학습 기반 가중치를 이용해 오프라인 선호 데이터와 모델이 생성하는 온‑라인 데이터를 동적으로 결합한다. 메타‑러너가 현재 정책과 오프라인 샘플 간의 정렬 격차를 추정해 필요한 프롬프트에만 온‑라인 샘플을 생성하고, 샘플별 메타‑가중치를 손실에 적용해 품질과 분포를 균형 있게 학습한다. AlpacaEval 2, Arena‑Hard, MT‑Bench에서 기존 DPO·Iterative DPO 등을 크게 앞서며, 온‑라인 라벨링 비용을 42 % 절감한다.

상세 분석

MetaAPO는 기존 오프라인‑전용 선호 최적화(DPO, SimPO, KTO 등)와 온‑라인 샘플링 기반 방법(Iterative DPO, SPPO 등)의 장단점을 통합하려는 시도다. 핵심은 “정렬 격차 추정기” 역할을 하는 메타‑러너 h₍ϕ₎이다. 메타‑러너는 현재 정책 π₍θ₎와 기준 모델 π₍ref₎ 사이의 로그‑우도 차이를 이용해 각 오프라인 샘플 (x, y_w, y_l) 에 대한 선호 점수 ℓ(x, y_w, y_l)를 계산하고, 이를 2‑계층 MLP에 입력해

메타 가중 온라인 샘플링으로 정렬 격차 해소

초록

상세 분석

댓글 및 학술 토론

의견 남기기