리스트형 정렬을 통한 LLM 선호도 정렬 최적화: DRPO와 차별화된 NDCG 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간 선호 데이터를 리스트 형태로 활용해 대형 언어 모델(LLM)을 정렬 기반으로 정렬한다. 기존의 쌍(pair) 기반 DPO와 달리, 전체 응답 리스트의 순위를 직접 최적화하는 Learning‑to‑Rank(LTR) 프레임워크인 DRPO를 제안한다. 핵심은 차별화 가능한 정렬 네트워크와 NDCG를 근사한 diffNDCG 손실, 그리고 순위‑의존 마진을 포함한 Adaptive Rank Policy Score이다. 실험 결과 DRPO가 기존 방법보다 승률(win rate)과 NDCG 모두에서 우수함을 입증한다.

상세 분석

이 논문은 RLHF 파이프라인에서 인간 선호 데이터를 “리스트형”으로 활용하는 새로운 접근법을 제시한다. 기존 DPO는 두 응답 사이의 선호를 이진 라벨로 변환해 로지스틱 손실을 최소화하는 쌍(pair) 기반 방법이며, 이는 전체 리스트의 구조적 정보를 손실한다. DRPO는 이를 넘어 전체 K개의 응답을 하나의 순위 리스트로 보고, 리스트 전체의 순위 품질을 정량화하는 NDCG(Normalized Discounted Cumulative Gain)를 직접 최적화한다는 점에서 차별화된다.

Learning‑to‑Rank(LTR) 관점
- LTR에서는 점수 함수 s(x, y; πθ) 를 학습해 응답을 정렬하고, 정렬 결과와 인간이 부여한 relevance score s_i 를 비교한다.
- NDCG는 상위 위치에 높은 relevance가 있을수록 큰 보상을 주는 비선형 가중치를 적용하므로, 모델이 “가장 중요한” 응답을 우선 생성하도록 유도한다.
diffNDCG 손실
- NDCG는 정렬 연산이 비미분이기 때문에 직접 역전파가 불가능하다. 저자들은 sorting network(예: NeuralSort, Sinkhorn‑based) 를 이용해 연속적인 permutation matrix P̂ 를 생성하고, 이를 통해 NDCG를 연속적으로 근사한다.
- diffNDCG는 실제 NDCG와 거의 동일한 순위 신호를 제공하면서도 GPU‑친화적인 행렬 연산만으로 구현 가능하다.
Adaptive Rank Policy Score (ARPS)
- 기존 Policy‑Reference Ratio는 로그 확률 비율을 사용해 상대적 우위를 측정하지만, 절대 확률이 낮은 경우에도 높은 점수를 줄 수 있다.
- ARPS는 (log πθ(y|x))/|y| 로 길이 정규화하고, rank‑dependent margin γ(y) 를 추가한다. γ(y)=τ·q(y)−β·V_q(y) 로, q(y) 는 현재 순위, V_q(y) 는 해당 순위에서의 이동 평균 로그 확률이다.
- 이 설계는 (1) 인접 순위 간 마진을 작게 유지해 미세 차이를 학습, (2) 큰 순위 차이에서는 마진을 확대해 명확한 구분을 강화, (3) 과거 학습 상황을 반영해 동적 조정을 가능하게 한다.
차별화 가능한 정렬 네트워크
- 저자들은 sorting network 를 선택해 구현 복잡성을 낮추고, doubly‑stochastic permutation matrix 를 얻는다. 이는 확률 분포를 보존하면서도 미분 가능성을 제공한다.
- 기존 SoftRank, ApproxNDCG 등은 복잡한 샘플링이나 고차원 적분을 필요로 하지만, sorting network 기반 접근은 O(K log K) 연산으로 실시간 학습에 적합하다.
실험 및 결과
- Ultrafeedback, VLfeedback 등 실제 리스트형 선호 데이터셋에서 DRPO는 win rate, NDCG, 그리고 인간 평가 기반의 품질 지표에서 기존 DPO, RSO, PRO, LiPO 등을 모두 앞선다.
- Ablation study에서는 ARPS 없이 diffNDCG만 사용하거나, diffNDCG 없이 기존 정책 비율만 사용할 경우 성능이 현저히 떨어짐을 보여, 두 요소가 상호 보완적임을 입증한다.
한계와 향후 과제
- 현재는 정적 리스트(고정 K) 를 가정하고 있어, 동적으로 생성되는 응답 수가 변동하는 상황에 대한 확장성이 필요하다.
- sorting network의 근사 오차가 큰 K 에서는 NDCG와의 차이가 확대될 가능성이 있어, 대규모 리스트에 대한 스케일링 연구가 요구된다.
- 인간 라벨링 비용을 최소화하기 위한 active ranking 혹은 semi‑supervised 접근과의 결합도 흥미로운 방향이다.

전반적으로 DRPO는 “리스트 전체를 한 번에 최적화”한다는 근본적인 아이디어와, 차별화 가능한 정렬·NDCG 근사라는 기술적 구현을 통해 LLM 정렬 정렬 정렬(Alignment) 문제에 새로운 패러다임을 제시한다.

리스트형 정렬을 통한 LLM 선호도 정렬 최적화: DRPO와 차별화된 NDCG 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기