IRPO: 브래들리‑터키 모델을 강화학습으로 확장하는 새로운 방법

읽는 시간: 3 분
...

📝 원문 정보

  • Title: IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
  • ArXiv ID: 2601.00677
  • 발행일: 2026-01-02
  • 저자: Haonan Song, Qingchen Xie, Huan Zhu, Feng Xiao, Luxi Xing, Fuzhen Li, Liu Kang, Feng Jiang, Zhiyong Zheng, Fan Yang

📝 초록 (Abstract)

생성형 보상 모델(GRM)은 해석 가능성과 강화학습(RL)을 통한 정제 가능성 때문에 보상 모델링에서 뛰어난 성능을 보여왔다. 그러나 널리 사용되는 쌍대 GRM은 n개의 후보에 대해 선호 신호를 보정·통합할 때 O(n²)의 쌍별 판단이 필요해 인간 피드백 기반 강화학습(RLHF)의 계산 병목이 된다. 이를 해결하고자 우리는 그룹 간 상대 선호 모델링(IRPM)이라는 RL 기반 방법을 제안한다. IRPM은 브래들리‑터키 선호 학습 패러다임을 확장해, 쌍대 선호 데이터를 이용해 점별 GRM을 학습한다. 선택된 샘플 그룹과 거부된 샘플 그룹을 대비시켜 각 응답에 대한 점별 보상을 도출함으로써 후보 집합 간에 비교 가능한 점수를 제공하고, RL 훈련 중 가변적인 후보 수에 대해 O(n)의 보상 평가를 가능하게 한다. 해석 가능성과 확장성을 유지하면서도 IRPM은 RM‑Bench, JudgeBench, RewardBench에서 점별 GRM 중 최고 수준의 성능을 기록했으며, 최첨단 쌍대 GRM에 근접하는 결과를 보였다. 또한 사후 훈련 평가에서도 큰 향상을 보여, 이 방법의 실효성을 입증한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 현재 RLHF 파이프라인에서 가장 큰 제약 중 하나인 “쌍별 판단의 O(n²) 복잡도” 문제를 근본적으로 재구성한다는 점에서 학술적·실용적 의의를 가진다. 전통적인 브래들리‑터키 모델은 두 후보 간의 승패 확률을 파라미터화해 선호를 추정하지만, 실제 RL 단계에서는 매 훈련 스텝마다 수백, 수천 개의 후보를 생성하고 이들 사이의 쌍을 모두 평가해야 한다. 이는 GPU 메모리와 연산량을 급격히 늘려 비용 효율성을 저해한다.

IRPM은 “그룹 간 비교”라는 새로운 시각을 도입한다. 구체적으로, 인간 라벨러가 제공한 쌍대 선호 데이터를 이용해 ‘선택된’ 샘플 집합과 ‘거부된’ 샘플 집합을 구성하고, 두 집합의 평균 점수를 대비시켜 점별 보상 함수를 학습한다. 이 과정은 브래들리‑터키 모델의 로그우도 함수를 그룹 수준으로 확장한 형태이며, 각 후보에 대한 점별 스코어를 직접 출력한다. 따라서 훈련 중에는 후보 개수 n에 비례하는 O(n) 연산만으로 보상을 계산할 수 있다.

핵심적인 장점은 세 가지이다. 첫째, 확장성이다. 후보 수가 늘어나도 연산량이 제곱으로 증가하지 않으므로 대규모 언어 모델의 RL 단계에 바로 적용 가능하다. 둘째, 해석 가능성이다. 점별 보상은 기존 브래들리‑터키 모델과 동일한 의미 체계를 유지하므로, 인간 라벨러가 이해하기 쉬운 “선호 점수” 형태로 제공된다. 셋째, 성능이다. 실험 결과는 RM‑Bench, JudgeBench, RewardBench 등 다양한 벤치마크에서 점별 GRM 중 최고 수준을 기록했으며, 최첨단 쌍대 GRM과의 격차를 크게 좁혔다. 특히 사후 훈련(post‑training) 단계에서의 향상은 IRPM이 학습된 보상 함수를 실제 응용에 효과적으로 전이할 수 있음을 시사한다.

하지만 몇 가지 한계도 존재한다. 그룹을 어떻게 구성하느냐에 따라 보상의 편향이 발생할 수 있으며, 라벨링 비용이 여전히 쌍대 데이터에 의존한다는 점이다. 또한, “선택 vs. 거부”라는 이진 구분이 복잡한 다중 선호 구조를 충분히 포착하지 못할 가능성도 있다. 향후 연구에서는 그룹 샘플링 전략을 최적화하고, 다중 라벨링 혹은 순위 기반 데이터를 통합하는 확장 모델을 모색할 필요가 있다.

전반적으로 IRPM은 RLHF의 효율성을 크게 개선하면서도 기존 브래들리‑터키 모델의 장점을 보존하는 혁신적인 접근법이며, 대규모 언어 모델의 실용적 배포에 중요한 전환점을 제공한다.

📄 논문 본문 발췌 (Translation)

생성 보상 모델(Generative Reward Models, GRM)은 해석 가능성과 강화 학습(RL)을 통한 정제 가능성 때문에 보상 모델링 분야에서 강력한 성능을 보여왔다. 그러나 널리 사용되는 쌍대 GRM은 n개의 후보에 대해 선호 신호를 보정하거나 집계할 때 종종 O(n²)의 쌍별 판단을 필요로 하여 인간 피드백 기반 강화 학습(RLHF)에서 계산 병목을 초래한다. 이 문제를 해결하기 위해 우리는 Intergroup Relative Preference Modeling(IRPM)이라는 RL 기반 방법을 제안한다. IRPM은 브래들리‑터키(Bradley‑Terry) 선호 학습 패러다임을 확장하여, 쌍대 선호 데이터를 이용해 점별 GRM을 학습한다. IRPM은 선택된 샘플 그룹과 거부된 샘플 그룹을 대비시켜 각 응답에 대한 점별 보상을 도출함으로써 후보 집합 간에 비교 가능한 점수를 제공하고, RL 훈련 중 가변적인 후보 수에 대해 O(n)의 보상 평가를 가능하게 한다. 이 과정은 해석 가능성과 확장성을 유지하면서도, IRPM이 RM‑Bench, JudgeBench, RewardBench에서 점별 GRM 중 최첨단 성능을 달성하고, 주요 쌍대 GRM에 근접하는 성과를 보였음을 보여준다. 또한 사후 훈련 평가에서도 상당한 향상을 이루어, 이 방법의 효과성을 입증한다.

📸 추가 이미지 갤러리

con7.png irpo.drawio.png model_performance_6_benchmarks2.png model_var.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키