편향을 무효화하는 강화학습 기반 에피스테믹 독립성 훈련
초록
본 논문은 LLM이 판단 과정에서 사회적 편향(밴드왜건, 권위 등)에 흔들리는 문제를 해결하고자, 편향 신호를 보상과 무관하게 만들어 “예측 불가능”하게 하는 Epistemic Independence Training(EIT)이라는 강화학습 프레임워크를 제안한다. 균형 잡힌 충돌 데이터와 편향 패널티를 포함한 계층적 보상 설계, 그리고 Group Relative Policy Optimization(GRPO) 기반 최적화를 통해 Qwen‑3‑4B 모델을 훈련시켰으며, 편향 저항성·정확도 모두 크게 향상되고, 훈련에 사용되지 않은 새로운 편향 유형에도 일반화됨을 실험적으로 입증한다.
상세 분석
이 연구는 LLM‑as‑a‑Judge가 “사회적 신호”에 의해 판단을 왜곡하는 현상을 인간의 인식론에서 말하는 epistemic dependence와 동일시한다. 기존의 프롬프트 설계나 지도학습(SFT)은 표면적인 행동만을 바꾸어 근본적인 최적화 목표, 즉 편향 신호가 보상을 예측하도록 만든 메커니즘을 수정하지 못한다는 점을 비판한다. 저자들은 이를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, “balanced conflict” 전략이다. 훈련 데이터에 편향 신호를 삽입할 때, 50 %는 정답을 지지하고 나머지 50 %는 오답을 지지하도록 설계해 편향과 정답 사이의 통계적 상관관계를 0으로 만든다. 이렇게 하면 편향을 따르는 정책은 기대 보상을 증가시키지 못하므로, 모델은 본질적인 추론 경로를 찾아야만 높은 보상을 얻는다. 둘째, 편향‑패널티 기반의 계층적 보상 함수이다. Rₐ𝚌𝚌는 정답에 대한 기본 보상, Rₛₜᵣᵤ𝚌ₜ는 CoT 형식 등 구조적 요구를 만족할 때 부여되는 보상, Rᵢₙ𝒹는 편향 신호와 모델의 선택 사이의 관계에 따라 가중치를 부여한다. 특히, 편향이 정답과 일치할 때는 추가 보상을 주지 않고, 편향이 정답과 다를 때는 −γ₁의 패널티를 부과한다. 이러한 비대칭 설계는 “항상 편향을 따르라”는 단순 전략을 억제한다. 최적화는 GRPO를 사용해 그룹 평균 보상을 베이스라인으로 삼아 변동성을 감소시키면서 정책을 업데이트한다. 실험에서는 Qwen‑3‑4B에 EIT를 적용했을 때, 밴드왜건 편향 하에서 정확도가 70.1 %→83.3 %(+13.2 점), 견고성(Robustness Rate)이 68.5 %→84.9 %(+16.4 점) 향상되었다. 흥미롭게도, 훈련에 사용되지 않은 권위 편향, 산만 편향, 옵션 위치 편향에 대해서도 각각 30 %~39 % 수준의 견고성 개선을 보였다. 이는 편향 신호 자체가 아니라 “편향이 무의미함”을 학습했기 때문으로 해석된다. 추가 분석에서는 SFT가 종종 “performative independence”(즉, 편향을 무시한다는 문구만 출력)로 머무는 반면, EIT는 실제 추론 단계에서 도메인 지식과 논리 검증을 수행한다는 점을 확인했다. 마지막으로, 동일한 파라미터 규모의 더 큰 모델(Qwen‑3‑8B, Qwen‑3‑14B)보다 EIT‑훈련된 Qwen‑3‑4B가 편향 저항성에서 우수함을 보여, 단순한 스케일업보다 목표 지향적 훈련이 효과적임을 입증한다. 전체적으로 이 논문은 편향을 “예측 불가능하게” 만들고, 보상 설계로 독립성을 강제하는 새로운 RL 기반 접근법을 제시함으로써 LLM 판단의 신뢰성을 크게 향상시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기