투명한 RAG를 향해 증거 추적성을 강화하는 강화학습 기반 TRACE
초록
**
TRACE는 검색‑증강 생성(RAG) 모델이 생성 과정에서 사용한 근거 문서를 명시적으로 인용하도록 강화학습(RL)으로 학습시킨 프레임워크이다. 구조화된 출력 포맷, 정확도·관련성·형식 세 축을 보상으로 설계하고, 보상 병합을 위한 적응형 전략과 안정적인 KL‑다이버전스 추정기를 도입해 학습 안정성을 확보한다. HotpotQA, 2WikiMultiHopQA, MuSiQue 등 3개 다중홉 QA 벤치마크에서 10‑30%의 정확도 향상과 함께 증거‑추적 가능한 답변을 생성한다.
**
상세 분석
**
본 논문은 RAG 시스템이 “왜 이 답을 도출했는가”라는 질문에 답하지 못하는 근본적인 투명성 결함을 해결하고자 한다. 이를 위해 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, 모델이 출력할 답변을 <evidence>, <analysis>, <answer>와 같은 명시적 섹션으로 구성하도록 프롬프트와 포맷 제약을 강제한다. 이렇게 하면 생성 과정에서 어떤 문서가 어떤 논리 단계에 사용됐는지를 직접 확인할 수 있다. 둘째, 이러한 구조화된 출력에 대해 다중 보상 함수를 정의한다. 정확도 보상은 최종 답변이 정답과 일치하는지를 평가하고, 관련성 보상은 선택된 근거가 실제로 질문 해결에 기여했는지를 측정한다. 형식 보상은 지정된 XML‑like 태그가 올바르게 사용됐는지를 체크한다. 특히, 모든 세 보상이 모두 최대치에 도달했을 때만 추가로 부여되는 ‘보너스’ 메커니즘을 도입해, 모델이 부분적으로만 좋은 결과를 내는 것을 방지하고 전반적인 일관성을 강화한다.
보상 병합은 단순 가중합이 아니라, 각 배치에서 보상의 분산과 평균을 이용해 동적으로 가중치를 조정하는 적응형 전략을 사용한다. 이는 특정 태스크에서 형식 보상이 과도하게 강조되거나, 반대로 정확도만 과도하게 최적화되는 현상을 완화한다.
학습 최적화 측면에서는 기존 PPO/GRPO 기반 RL이 KL‑다이버전스 항을 근사할 때 발생하는 급격한 그래디언트 스파이크 문제를 지적하고, 토큰‑레벨에서 기대값을 샘플링이 아닌 무편향 추정기로 대체한 ‘stabilized KL estimator’를 적용한다. 이 방법은 정책 업데이트 시 KL 손실이 과도하게 급등하는 것을 방지해, 특히 엄격한 포맷 제약이 있는 상황에서도 안정적인 수렴을 가능하게 한다.
실험에서는 Qwen2.5‑7B‑Instruct와 Llama‑3.1‑8B‑Instruct 두 모델에 TRACE를 적용했으며, HotpotQA, 2WikiMultiHopQA, MuSiQue 세 데이터셋에서 베이스라인 대비 10‑30%의 정확도 상승을 기록했다. 특히, 생성된 답변이 명시적 근거 인용을 포함함에도 불구하고, 상용 모델인 OpenAI o1, DeepSeek‑R1과 경쟁할 만한 성능을 보였다. 추가적인 OOD 테스트와 웹‑검색 기반 시나리오에서도 일반화 능력이 유지되는 것을 확인했다.
Ablation 연구에서는 (1) 보너스 메커니즘 제거, (2) 적응형 보상 병합 없이 고정 가중치 사용, (3) 기존 KL‑추정기로 교체했을 때 각각 성능이 현저히 떨어짐을 보여, 제안된 구성 요소들의 상호 보완적 역할을 입증한다.
한계점으로는 현재 증거 선택이 사전 정의된 K개의 문서 내에서만 이루어지며, 더 큰 규모의 동적 검색 환경에서는 추가적인 탐색 정책이 필요할 수 있다는 점을 언급한다. 또한, 보상 설계가 태스크‑특화된 하이퍼파라미터에 의존한다는 점에서 완전한 자동화에는 아직 거리가 있다.
전반적으로 TRACE는 RAG 시스템에 투명성을 부여함과 동시에 정확도까지 향상시키는 실용적인 접근법으로, 향후 LLM 기반 지식 서비스에서 신뢰성·감시 가능성을 강화하는 데 중요한 발판이 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기