강화학습으로 단·장문 QA의 환각 억제와 신뢰성 향상

강화학습으로 단·장문 QA의 환각 억제와 신뢰성 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 강화학습(RL) 기반 프레임워크를 제안하여 짧은 형태와 긴 형태의 질문‑응답(QA)에서 내재적·외재적 환각을 동시에 감소시킨다. 외재적 환각 방지를 위해 TriviaQA를 개방형 형식으로 변환한 새로운 학습 데이터를 구축하고, 내재적 환각 억제를 위해 FineWeb의 장문 텍스트를 활용한 사실‑근거 보상 방식을 도입한다. 또한 답변을 포기하도록 보상함으로써 모델의 신중함을 강화한다. GRPO 변형 알고리즘과 복합 보상 함수(사실 정확도, 형식 패널티, 정보 밀도 패널티)를 사용해 MiMo‑7B와 Qwen‑3‑4B 모델을 학습시켰으며, 다양한 벤치마크에서 환각률 감소와 정확도 향상을 입증하였다.

상세 분석

이 연구는 LLM의 고도화된 추론 능력이 강화학습에 의해 더욱 강화되는 동시에, 체인‑오브‑생각(Chain‑of‑Thought, CoT) 과정에서 오류가 누적되어 환각이 급증한다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 두 종류의 환각을 명확히 구분하고, 각각에 특화된 데이터와 보상 메커니즘을 설계하였다. 외재적 환각(모델 내부 지식 오류)에는 TriviaQA를 개방형 질문으로 재구성한 2 000여 개 샘플을 사용해, 모델이 잘못된 사실을 생성할 경우 큰 패널티를 부여한다. 내재적 환각(제공된 컨텍스트와의 불일치)에는 FineWeb에서 추출한 32K‑80K 문자 규모의 장문 텍스트를 활용, 사실‑근거 보상(fact‑grounding reward)을 통해 각 원자적 주장(claim)의 정확성을 검증한다. 보상 함수는 사실 정확도(𝑓_claim), 형식 패널티(𝑝_format), 정보 밀도 패널티(𝑝_information) 세 요소를 선형 결합한 형태이며, 정보 밀도 패널티는 답변의 풍부함을 과도하게 추구할 경우에도 패널티를 부과하도록 0.0·0.5·1.0의 3단계 스케일을 적용한다.

RL 알고리즘은 기존 GRPO에 KL 발산 페널티를 제거하고, Dynamic Sampling과 Clip‑Higher 메커니즘을 추가해 학습 안정성을 높였다. 특히 “답변 포기” 행동에 +0.1 보상을 부여함으로써 모델이 불확실한 질문에 대해 무리하게 추론하는 것을 억제하고, 신중한 거절을 학습한다. 실험에서는 MiMo‑7B‑RL‑0530과 Qwen‑3‑4B 두 모델에 적용했으며, Self‑Aware, SUM(수학) 등 비답변 가능 질문에서 거절 정확도가 15 %p 이상 상승했다. 짧은 형태 QA(AIME, TriviaQA, SimpleQA)에서는 응답 수준 정확도와 사실 정확도가 각각 3‑5 %p 개선되었고, 장문 형태(FACTS‑Grounding, FactScore, LongFact)에서는 원자적 주장 정확도가 7 %p, 환각률이 12 %p 감소했다.

CoT 감독에 관한 탐색에서는 세 가지 전략을 비교하였다. (1) 전체 CoT를 원자적 주장으로 분해해 보상에 포함하는 “GRPO with CoT”, (2) CoT를 무시하고 최종 답변만 평가하는 “GRPO without CoT”, (3) CoT를 요약해 평가하는 “GRPO with Summarized CoT”. 결과는 전체 CoT 감독이 계산 비용이 크게 증가하고, 특히 외부 검색 기반 장문 QA에서는 성능이 오히려 저하됨을 보여준다. 반면 CoT를 완전히 배제한 경우가 가장 안정적인 성능을 기록했으며, 요약된 CoT는 중간 정도의 효율성을 보였다. 이는 평가자가 중간 추론 단계에서 발생하는 “self‑correction”을 오히려 오류로 오인할 위험이 있음을 시사한다.

또한 출력 길이와 정보 밀도 사이의 트레이드‑오프를 정량화하였다. 모델이 더 많은 원자적 주장을 생성할수록 정보 밀도는 상승하지만, 사실 정확도와 환각률이 동시에 악화되는 경향이 관찰되었다. 이를 완화하기 위해 정보 밀도 패널티를 도입했으며, 실험 결과 평균 주장 수가 1.8에서 2.3으로 증가했음에도 불구하고 사실 정확도는 2 %p 상승하고 환각률은 4 %p 감소했다.

전반적으로 이 논문은 “환각 억제와 추론 능력 강화”라는 양면성을 동시에 달성하기 위한 구체적 데이터·보상·알고리즘 설계를 제시하고, 실증적 평가를 통해 그 효과를 검증하였다. 향후 연구에서는 더 다양한 도메인(예: 의료, 법률)과 멀티모달 컨텍스트에 대한 확장, 그리고 인간 피드백을 결합한 하이브리드 보상 모델 개발이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기