동적 컨텍스트 선택으로 RAG 성능 향상 방해요소와 위치편향 완화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고정된 top‑k 검색 방식이 초래하는 불필요한 방해 문서와 “중간에 묻힌” 현상을 정량적으로 분석하고, 질의별 최적 문서 수를 예측하는 컨텍스트‑크기 분류기를 도입한다. 분류기와 LLM 기반 재정렬을 결합한 동적‑k 파이프라인은 MuSiQue‑Ans 등 다중 홉 QA 벤치마크에서 고정‑k 대비 EM·F1 점수를 크게 개선한다.

상세 분석

이 연구는 Retrieval‑Augmented Generation(RAG) 시스템이 직면한 두 가지 핵심 약점을 체계적으로 파악한다. 첫 번째는 “distractor”라 불리는 의미적으로 무관한 문서가 top‑k에 포함될 경우, 생성 모델이 주어진 컨텍스트에서 중요한 정보를 놓치거나 오답을 생성한다는 점이다. 실험에서는 2‑hop 질문에 단 하나의 방해 문서가 추가될 때 EM이 26 % 이상 급락하고, 3‑hop·4‑hop에서도 각각 13 %·14 % 수준의 성능 저하가 관찰되었다. 두 번째는 LLM이 입력 시퀀스의 위치에 민감하게 반응한다는 “lost in the middle” 현상이다. 동일한 문서를 앞·중·뒤에 배치했을 때, 뒤쪽에 배치된 경우가 가장 높은 EM·F1을 기록했으며, 중간에 위치하면 가장 낮은 점수를 보였다. 이는 LLM이 초기와 최종 토큰에 더 큰 가중치를 부여한다는 기존 연구와 일치한다.

이러한 현상을 완화하기 위해 저자들은 질의별 최적 문서 수 k를 예측하는 컨텍스트‑크기 분류기를 설계했다. 분류기는 RoBERTa‑base를 기반으로 질문을 입력받아 hop‑type(2‑hop, 3‑hop, 4‑hop)을 예측하고, 이를 사전에 정의된 k값(예: 2, 3, 4)으로 매핑한다. 분류기의 정확도는 전체 데이터셋에서 87.3 %에 달했으며, 단일 데이터셋(MuSiQue)에서도 77.8 %를 기록해 충분히 일반화 가능함을 보였다.

동적‑k 파이프라인은 두 단계로 구성된다. ① 분류기가 예측한 k값에 따라 실제 검색 엔진(BM25, dense retriever, ColBERT + MonoT5 등)에서 해당 수만큼 문서를 추출한다. ② 추출된 후보 문서들을 LLM(Mistral Nemo Instruct)에게 전달해, “k개만 선택하라”는 프롬프트로 재정렬한다. 최종적으로 선택된 문서들을 Flan‑T5‑XL에 입력해 답변을 생성한다.

실험 결과, 고정‑k(k=5) 기반 베이스라인 대비 동적‑k+LLM 재정렬 구성은 MuSiQue‑Ans dev 셋에서 EM이 0.58→0.66, F1이 0.62→0.71로 각각 8 %·9 % 상승했다. 특히 2‑hop 질문에서 방해 문서에 대한 민감도가 크게 감소했으며, 문서 위치에 따른 성능 편차도 최소화되었다. 다양한 검색 백엔드(BM25, dense, ColBERT)와의 조합 실험에서도 일관된 개선 효과가 확인되었다.

이 논문은 (1) 방해 문서와 위치 편향이 RAG 성능에 미치는 구체적 영향을 정량화하고, (2) 질의 복잡도에 기반한 동적 문서 수 예측이 실제 QA 성능을 향상시킬 수 있음을 입증한다는 점에서 의미가 크다. 또한, 기존의 고정‑k 전략을 대체할 실용적인 프레임워크를 제시함으로써, 멀티‑hop 및 복합 질의 환경에서 RAG 시스템을 보다 효율적으로 운영할 수 있는 길을 열었다.

동적 컨텍스트 선택으로 RAG 성능 향상 방해요소와 위치편향 완화

초록

상세 분석

댓글 및 학술 토론

의견 남기기