동적 보상 조정 기반 역강화학습으로 LLM 안전 정렬 강화

동적 보상 조정 기반 역강화학습으로 LLM 안전 정렬 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DR‑IRL은 균형 잡힌 위험 카테고리 시연 데이터를 이용해 역강화학습(IRL)으로 카테고리별 보상 모델을 학습하고, GRPO에 데이터 난이도와 모델 응답성을 반영한 동적 보상 스케일링을 적용한다. 실험 결과 기존 보상 기반·보상‑프리 방법을 모두 능가하며 안전성은 높이고 유용성은 유지한다.

상세 분석

본 논문은 LLM 정렬에서 두 가지 근본적 한계—안전 데이터의 카테고리 불균형과 정적인 보상 모델—를 동시에 해결하고자 한다. 첫 단계에서는 ‘Chain‑of‑Draft(CoD)’ 프롬프트를 활용해 7가지 위험 유형을 골고루 포함한 시연 데이터셋을 자동 생성한다. 이 데이터는 인간 선호 쌍이 아닌 단일 시연(입력‑정답) 형태이며, 비용 효율성이 높다. 이후 역강화학습(ML‑IRL) 프레임워크를 적용해 각 카테고리별 ‘섀도우 보상 모델’을 학습한다. 수식 (1)‑(2)에서 보듯, 정책 πθ는 보상 r(x,y;θ)와 KL‑정규화 항을 동시에 최적화하는 이중 레벨 구조를 가진다.

정렬 단계에서는 기존 GRPO의 정적 보상에 동적 가중치를 부여한다. 데이터 난이도 αD는 시연 답변과 현재 정책이 생성한 답변 사이의 텍스트 인코더 코사인 유사도 Wji를 기반으로 δji=1‑Wji를 계산하고, 시그모이드 정규화 후 카테고리 평균 δ̄j와 비교해 산출한다. 모델 응답성 αM은 섀도우 보상 모델이 산출한 보상 격차 Rji=Rj(q,oj)‑Rj(q,eo)의 평균값을 마스크 처리한 뒤 시그모이드 변환으로 얻는다. 최종 하드니스 계수 αji=αDji·αMj는 두 신호를 곱해, 내용적으로 어려우면서 현재 모델이 불확실한 샘플에만 높은 가중치를 부여한다.

이 가중치는 GRPO의 어드밴티지 함수에 직접 곱해져, 어려운 장기 위험 사례에 집중적인 정책 업데이트를 가능하게 한다. 실험에서는 LLaMA‑3, GPT‑Neo 등 다양한 모델에 적용했으며, 안전성 벤치마크(예: Harmless‑Eval, Jailbreak‑Bench)에서 기존 PPO‑HF, DPO, RM‑Free 방법을 크게 앞섰다. 동시에 MMLU·HumanEval 등 유용성 지표에서는 손실이 거의 없거나 소폭 개선되었다.

기술적 기여는 (1) 시연 기반 IRL을 통한 카테고리‑특화 보상 학습, (2) 데이터‑모델 이중 관점을 결합한 동적 보상 스케일링, (3) 기존 정렬 파이프라인에 최소한의 구조적 변경만으로 안전성‑유용성 트레이드오프를 최적화한 점이다. 한계로는 시연 데이터 생성 품질에 대한 의존성, 보상 모델의 과적합 위험, 그리고 하드니스 계수의 하이퍼파라미터(τ, T 등) 튜닝 필요성이 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기