선호 기반 지시형 보상 모델의 이중 집계 기법
초록
PIRA는 질문‑답변 데이터를 선호 지시문으로 변환하고, 다양한 지시문과 서로 다른 드롭아웃 비율에서 얻은 보상을 평균화함으로써 보상 모델의 편향을 감소하고 과최적화를 완화한다. 실험 결과, 여러 LLM과 데이터셋에서 기존 방법보다 높은 정밀도와 안정성을 보이며, RLHF 파이프라인에서도 보상 해킹을 효과적으로 억제한다.
상세 분석
PIRA는 크게 세 가지 핵심 전략을 결합한다. 첫째, 기존 차별형 보상 모델이 질문과 답변을 단순히 연결하는 방식에서 벗어나, 인간 선호 데이터를 “선호‑지시문” 형태로 재구성한다. 이 지시문은 LLM이 명시적으로 “점수를 매겨라”라는 작업 의도를 인식하도록 하여, 사전 학습된 언어 모델의 지시 수행 능력을 직접 활용한다. 둘째, 하나의 (질문, 답변) 쌍에 대해 K개의 서로 다른 선호‑지시문을 무작위로 선택하고, 각 지시문에 대해 얻은 보상을 평균한다. 이렇게 하면 특정 프롬프트에 의존하는 편향이 감소하고, 다양한 평가 관점을 포괄하는 보다 견고한 보상 추정이 가능해진다. 셋째, 가치 헤드(g ψ)에만 다중 드롭아웃을 적용하고, M개의 서로 다른 드롭아웃 비율(예: 0.10.4)에서 얻은 보상을 다시 평균한다. 이는 베이지안적 불확실성 추정과 유사한 효과를 제공해 보상 값의 분산을 크게 줄인다. 학습 단계에서는 Bradley‑Terry 손실을 사용해 선호 쌍을 최적화하고, 백본(h θ)은 낮은 학습률로 보수적으로 미세조정하며, 가치 헤드(g ψ)는 높은 학습률로 빠르게 적응한다. 추론 시 백본은 한 번만 순전파하고, 가치 헤드만 M × K번 전파해 최종 보상을 산출한다. 실험에서는 Mistral‑7B, LLaMA‑3‑8B, Qwen2.5 등 다양한 모델에 적용했으며, HH‑cleaned, SHP, Alpaca‑farm 등 6개 데이터셋에서 평균 정확도가 13%p 상승하고 표준편차가 현저히 감소했다. 특히 PPO 기반 RLHF 실험에서 PIRA‑훈련 보상 모델은 KL 발산과 보상 급등 현상이 억제되어, “보상 해킹” 현상이 거의 관찰되지 않았다. Ablation 연구는 지시문 평균화가 성능 향상의 주 요인임을 확인하고, 드롭아웃 평균화는 안정성(표준편차) 감소에 크게 기여함을 보여준다. 비용 측면에서는 가치 헤드에만 드롭아웃을 적용해 전체 지연이 약 7% 정도 증가했으며, 지시문 평균화에 따른 비용은 K에 비례해 선형적으로 증가한다. 제한점으로는 13B 이상 대형 모델에 대한 평가가 부족하고, 추론 비용이 여전히 증가한다는 점을 들었다.
댓글 및 학술 토론
Loading comments...
의견 남기기