교체로 해결하는 다중 홉 RAG의 맥락 희석 방지
읽는 시간: 2 분
...
📝 원문 정보
- Title: Replace, Dont Expand: Mitigating Context Dilution in Multi-Hop RAG via Fixed-Budget Evidence Assembly
- ArXiv ID: 2512.10787
- 발행일: 2025-12-11
- 저자: Moshe Lahmy, Roi Yozevitch
📝 초록 (Abstract)
검색‑증강 생성(RAG) 시스템은 초기 검색 단계에서 다리 역할을 하는 사실을 놓칠 경우 다중 홉 질의에 취약하다. 기존 교정 방법인 Self‑RAG, CRAG, Adaptive‑k는 주로 컨텍스트를 추가하거나 기존 리스트를 정제하는 방식으로 문제를 해결한다. 그러나 컨텍스트를 단순히 확장하면 산만한 정보가 늘어나면서 핵심 증거가 묻히는 ‘맥락 희석(context dilution)’ 현상이 발생한다. 본 연구는 고정된 검색 깊이 k 하에서 “확장하지 말고 교체하라”는 원칙을 적용한 훈련‑프리 컨트롤러 SEAL‑RAG를 제안한다. SEAL은 (Search → Extract → Assess → Loop) 순환을 수행하며, 엔터티 기반 추출을 통해 현재의 증거 격차(누락된 엔터티·관계)를 실시간으로 정의하고, 이를 메타‑쿼리로 전환해 목표 증거를 찾아낸다. 이후 엔터티‑우선 순위 매김을 통해 불필요한 문서를 교체함으로써 증거 슬롯을 최적화한다. HotpotQA(k=3)와 2Wiki‑MultiHopQA(k=5)에서 기본 RAG, CRAG, Self‑RAG, Adaptive‑k를 재구현한 베이스라인과 비교 실험을 수행하였다. HotpotQA에서는 SEAL‑RAG가 정답 정확도를 3~13%p, 증거 정밀도를 12~18%p 향상시켰으며, 2Wiki‑MultiHopQA에서는 Adaptive‑k 대비 정확도 8.0%p 상승과 96%의 증거 정밀도를 유지했다(CRAG는 22%에 머물렀음). 모든 향상은 p < 0.001 수준에서 통계적으로 유의하였다. 고정‑k 교체 전략은 비용을 예측 가능하게 유지하면서도 상위 k 슬롯을 폭넓이보다 정밀하게 구성한다. 코드와 데이터는 https://github.com/mosherino/SEAL‑RAG 에서 공개한다.💡 논문 핵심 해설 (Deep Analysis)
