지식 겸손을 학습시키는 LLM: 답변 회피를 보상하는 새로운 강화학습 접근
초록
본 논문은 LLM이 자신이 모르는 질문에 “I don’t know”라고 답하도록 유도하는 강화학습 프레임워크(RLVR)를 제안한다. 3가지 보상 구조(정답 = +1, 오답 = ‑1, 회피 = r_abs)를 이용해 Granite‑3.3‑2B와 Qwen‑3‑4B 모델을 MedMCQA와 Hendrycks Math에 적용했으며, 적절한 r_abs(‑0.25 ~ 0.3) 값이 정답률을 크게 떨어뜨리지 않으면서 오답 비율을 현저히 감소시킴을 확인했다. 특히 대형 모델은 회피 보상에 더 강인하게 반응한다. 개방형 수학 문제에서는 탐색 부족으로 회피 활용이 제한적이었으며, 사전 SFT 기반 회피 학습이 이를 보완한다는 결과를 제시한다.
상세 분석
이 연구는 LLM의 ‘지식 겸손(intellectual humility)’을 정량화하기 위해 기존 RLHF에서 사용되는 인간 선호 모델을 배제하고, 검증 가능한 보상(Reward)만으로 학습을 진행한다는 점이 혁신적이다. 보상 함수 R(y)는 세 가지 경우로 나뉘며, 회피 행동에 부여되는 r_abs는 하이퍼파라미터로 설정한다. r_abs가 음수이면 회피를 억제하고, 양수이면 회피를 장려한다. 논문은 두 가지 모델(Granite‑3.3‑2B, Qwen‑3‑4B)과 두 데이터셋(MedMCQA, Hendrycks Math)에서 다양한 r_abs 값을 실험하였다.
실험 결과, 중간 정도의 양의 r_abs(≈0.2~0.3)는 오답 비율을 크게 낮추면서 전체 정확도 손실을 최소화한다. 특히 Qwen‑3‑4B는 작은 모델에 비해 회피 보상에 대한 민감도가 낮아, 높은 정확도를 유지하면서도 회피 비율을 40%까지 끌어올릴 수 있었다. 이는 모델 규모가 클수록 불확실성 추정이 더 정교해짐을 시사한다.
반면 개방형 수학 문제에서는 RL‑only 설정이 회피를 충분히 활용하지 못했다. 이는 강화학습에서 탐색(exploration) 부족이 원인이며, ‘RL‑SFT‑Random’ 방식—즉, 사전 학습 단계에서 30%의 정답을 무작위로 회피로 교체한 데이터로 SFT를 수행한 뒤 RL을 적용—이 회피 활용을 크게 늘렸다. ‘RL‑R‑Tuning’(오답을 회피로 교체한 SFT)도 시도했지만, 초기 회피 비율이 과도하게 높아 RL 단계에서 회복이 어려웠다.
또한, 보상 스케일링 실험에서 r_abs를 ‑0.5에서 0.3까지 변화시켰을 때, 회피 비율은 단조 증가하지만 정확도는 역전형을 보였다. 이는 실용적인 시스템 설계 시 ‘정확도 vs. 회피율’ 트레이드오프를 명시적으로 조정할 수 있는 장점을 제공한다.
전체적으로, 검증 가능한 보상 설계는 인간 라벨링 비용을 크게 절감하면서도 Hallucination을 억제하는 효과적인 대안이 될 수 있다. 다만, 회피 행동을 충분히 탐색하도록 하는 메커니즘(예: 온‑폴리시 탐색 강화, 베이스라인 정책 혼합)과 개방형 답변 형식에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기