교체로 해결하는 다중 홉 RAG의 맥락 희석 방지

읽는 시간: 2 분
...

📝 원문 정보

  • Title: Replace, Dont Expand: Mitigating Context Dilution in Multi-Hop RAG via Fixed-Budget Evidence Assembly
  • ArXiv ID: 2512.10787
  • 발행일: 2025-12-11
  • 저자: Moshe Lahmy, Roi Yozevitch

📝 초록 (Abstract)

검색‑증강 생성(RAG) 시스템은 초기 검색 단계에서 다리 역할을 하는 사실을 놓칠 경우 다중 홉 질의에 취약하다. 기존 교정 방법인 Self‑RAG, CRAG, Adaptive‑k는 주로 컨텍스트를 추가하거나 기존 리스트를 정제하는 방식으로 문제를 해결한다. 그러나 컨텍스트를 단순히 확장하면 산만한 정보가 늘어나면서 핵심 증거가 묻히는 ‘맥락 희석(context dilution)’ 현상이 발생한다. 본 연구는 고정된 검색 깊이 k 하에서 “확장하지 말고 교체하라”는 원칙을 적용한 훈련‑프리 컨트롤러 SEAL‑RAG를 제안한다. SEAL은 (Search → Extract → Assess → Loop) 순환을 수행하며, 엔터티 기반 추출을 통해 현재의 증거 격차(누락된 엔터티·관계)를 실시간으로 정의하고, 이를 메타‑쿼리로 전환해 목표 증거를 찾아낸다. 이후 엔터티‑우선 순위 매김을 통해 불필요한 문서를 교체함으로써 증거 슬롯을 최적화한다. HotpotQA(k=3)와 2Wiki‑MultiHopQA(k=5)에서 기본 RAG, CRAG, Self‑RAG, Adaptive‑k를 재구현한 베이스라인과 비교 실험을 수행하였다. HotpotQA에서는 SEAL‑RAG가 정답 정확도를 3~13%p, 증거 정밀도를 12~18%p 향상시켰으며, 2Wiki‑MultiHopQA에서는 Adaptive‑k 대비 정확도 8.0%p 상승과 96%의 증거 정밀도를 유지했다(CRAG는 22%에 머물렀음). 모든 향상은 p < 0.001 수준에서 통계적으로 유의하였다. 고정‑k 교체 전략은 비용을 예측 가능하게 유지하면서도 상위 k 슬롯을 폭넓이보다 정밀하게 구성한다. 코드와 데이터는 https://github.com/mosherino/SEAL‑RAG 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 다중 홉 질문에 대한 검색‑증강 생성(RAG) 시스템의 근본적인 한계인 ‘맥락 희석’ 문제를 새로운 관점에서 접근한다. 기존 연구들—Self‑RAG, CRAG, Adaptive‑k—은 주로 검색 결과를 추가하거나 기존 리스트를 단순히 정제하는 방식으로 답변 품질을 높이려 했다. 그러나 이러한 방식은 모델이 한정된 컨텍스트 윈도우에 과도한 정보를 주입함으로써 핵심 증거가 주변 잡음에 묻히는 부작용을 낳는다. 특히 다중 홉 질의는 중간 단계의 ‘브릿지 팩트’를 반드시 포함해야 하는데, 초기 검색 단계에서 이 브릿지 …

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키