불만을 활용한 실시간 선호 학습 DRIFT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
DRIFT는 실제 서비스에서 발생하는 사용자 불만(DSAT) 신호를 핵심 학습 데이터로 삼아, 현재 정책에서 동적으로 긍정 응답을 샘플링함으로써 반복적인 선호 최적화를 수행한다. WildFeedback와 UltraFeedback 데이터셋에서 기존 IterDPO·SPIN 대비 6~12% 수준의 성능 향상을 보이며, 특히 14B 규모 모델이 GPT‑4o‑mini를 능가한다. 이론적으로 선호 마진을 유지해 그래디언트 붕괴를 방지하고, 탐색 다양성도 향상시킨다.
상세 분석
DRIFT는 실사용 환경에서 사용자가 불만을 표현하는 경우가 만족보다 훨씬 빈번하다는 관찰에 기반한다. 논문은 WildFeedback 데이터셋에서 불만(DSAT) 라벨이 전체 대화의 약 12%를 차지하고, 만족(SAT) 라벨은 5%에 불과함을 제시한다. 이러한 비대칭성을 단순히 데이터 부족으로 보는 것이 아니라, 고품질의 ‘부정’ 신호로 활용한다는 점이 핵심 아이디어다.
방법론은 크게 두 단계로 구성된다. 첫 번째는 491개의 DSA T→SAT 전환 사례를 이용한 워밍업 단계로, 초기 정책을 불만을 최소화하도록 정렬한다. 두 번째는 반복적인 선호 학습 단계이다. 각 반복에서 현재 정책 πθ_k는 불만이 표시된 프롬프트 x에 대해 새로운 긍정 응답 y⁺를 샘플링하고, 기존 불만 응답 y⁻를 ‘거부’ 샘플로 사용한다. 이렇게 구성된 (x, y⁺, y⁻) 삼중항에 대해 DPO 손실을 최소화한다. 손실식 L_DPO = –E
댓글 및 학술 토론
Loading comments...
의견 남기기