정확성 넘어: 검색 기반 생성에서 신뢰성 있는 추론 보상
초록
본 논문은 검색-증강 생성(RAG) 에서 강화학습(RL) 기반 에이전트가 최종 정답 정확도만을 최적화하면서 중간 추론 단계의 신뢰성을 간과하는 문제를 지적한다. 이를 해결하기 위해 정보‑생각, 생각‑검색, 생각‑답변이라는 세 가지 신뢰성 지표를 정의하고, 기존 Search‑R1·ReSearch 모델이 이 지표에서 크게 부족함을 실험적으로 보여준다. 이후 중간 단계별 신뢰성을 보상으로 반영한 VERITAS 프레임워크를 제안해, 신뢰성 점수를 강화학습 보상에 통합함으로써 추론 신뢰성을 크게 향상시키고 최종 성능까지 개선한다.
상세 분석
이 논문은 최근 LLM을 검색 엔진과 연동해 복합 질의에 대응하도록 훈련하는 ‘에이전트식 검색(agentic search)’ 연구 흐름에 중요한 비판적 시각을 제공한다. 기존 RL‑VR(Reinforcement Learning from Verifiable Reward) 기반 모델들은 PPO·GRPO 등으로 정책을 최적화하면서 ‘정답 정확도(Exact Match)’만을 보상으로 삼아 왔으며, 이는 체인‑오브‑생각(Chain‑of‑Thought) 단계가 실제로 검색된 근거와 일치하는지 여부를 검증하지 않는다. 저자들은 이를 ‘추론 불신실성(chain‑of‑thought unfaithfulness)’이라 명명하고, 세부적인 신뢰성 차원을 정량화한다.
- Information‑Think Faithfulness:
블록 직후의 블록이 해당 근거를 실제로 활용했는지를 판단한다. 여기서는 증거 요약, 논리적 추론, 혹은 직접 인용 여부를 NLI 모델과 LLM‑as‑Judge(Claude Sonnet‑4.5)로 평가한다. - Think‑Search Faithfulness:
블록이 식별한 정보 격차를 기반으로 생성된 쿼리가 합리적인지를 검증한다. NLI 기반 전제‑가설 관계와 인간‑유사 LLM 판단을 결합해, 암시적 동기까지 포착한다. - Think‑Answer Faithfulness: 최종
가 블록에 의해 충분히 뒷받침되는지를 NLI와 Sub‑EM(핵심 엔티티/사실 일치)으로 측정한다.
이 세 지표를 기존 Search‑R1·ReSearch에 적용한 결과, 정답 정확도는 2~3% 상승했음에도 불구하고 Information‑Think 신뢰성은 30% 이하, Think‑Search는 45% 수준에 머물렀다. 즉, 모델이 ‘정답을 맞추는’ 과정에서 근거를 무시하거나 무관한 검색을 수행한다는 점을 드러낸다.
VERITAS는 이러한 문제를 해결하기 위해 ‘프로세스‑레벨 보상(process‑level reward)’을 도입한다. 구체적으로, 각 전이 단계마다 위에서 정의한 신뢰성 점수를 보상 함수에 가중치 α, β, γ 로 삽입하고, PPO 기반 정책 업데이트 시 총 보상 R = λ·OutcomeReward + α·InfoThink + β·ThinkSearch + γ·ThinkAnswer 로 최적화한다. 실험에서는 λ=0.7, α=β=γ=0.1 로 설정했으며, 이는 최종 정답 보상에 과도 의존하지 않으면서도 중간 단계의 품질을 지속적으로 강화한다는 점을 보여준다.
결과적으로 VERITAS‑R1은 Information‑Think 신뢰성을 14%p, Think‑Answer을 7.7%p 상승시켰고, NQ와 HotpotQA 같은 벤치마크에서 Exact Match 점수도 기존 모델 대비 1.2~2.0%p 개선하였다. 이는 ‘정답 정확도와 추론 신뢰성’이 상충하지 않고 동시에 향상될 수 있음을 실증한다. 또한, 보상 설계가 비교적 단순함에도 불구하고 정책 안정성(variance 감소)과 샘플 효율성(학습 단계 감소)에서도 이점을 보였다.
이 논문의 주요 기여는 (1) 에이전트식 검색에서 신뢰성을 정량화한 평가 프레임워크, (2) 기존 모델들의 신뢰성 격차를 실증한 베이스라인 분석, (3) 신뢰성 보상을 통합한 VERITAS 훈련 메커니즘이며, 이는 향후 RAG 시스템이 ‘정답만 맞추는’ 것이 아니라 ‘근거에 기반한 투명한 추론’을 제공하도록 하는 방향성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기