- Title: AdaGReS Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG
RAG(Retrieval-Augmented Generation)는 대형 언어 모델(LLM)이 외부 지식을 통합하고, 지식 집약적인 작업 성능을 향상시키는 주요 기술로 발전했습니다. 그러나 RAG 시스템은 검색된 결과의 다양성과 관련성을 균형 있게 유지하는 데 어려움을 겪습니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 맥락 점수화 및 선택 메커니즘을 제안하고 이를 구현합니다.
1. **맥락 중복과 다양성 부족 해결**: RAG 시스템은 관련성을 높이기 위해 외부 문서를 통합하지만, 이 과정에서 내용의 중복과 다양성 부족 문제가 발생합니다. 이를 해결하기 위한 새로운 점수화 메커니즘을 제안합니다.
2. **적응형 $\beta$ 조절 전략**: $\beta$ 매개변수를 자동으로 조절하여 맥락 선택 과정에서 중복과 다양성을 균형 있게 유지할 수 있도록 합니다. 이는 다양한 쿼리와 토큰 제약에 맞게 적응합니다.
3. **이론적 보장 및 실험 결과**: $\varepsilon$-근사 서브모듈라성의 이론적 증명을 통해 근접 전역 최적화를 달성할 수 있다는 것을 보여줍니다.
# 서론
리트리브-증강 생성(RAG)은 Lewis et al.(2020)에 의해 처음 소개된 이후, 대형 언어 모델(LLMs)이 외부 지식을 통합하고 지식 집약적인 작업의 성능을 향상시키는 주요 기술로 발전했습니다. RAG를 통해 외부 문서나 지식 조각을 LLMs과 통합함으로써, 시스템은 자주 재훈련 없이 최신화된, 도메인 특화 정보에 접근할 수 있게 되어, 최신화된 및 도메인 특화 정보의 접근성을 향상시킵니다. DPR(Karpukhin et al., 2020), ColBERT(Khattab과 Zaharia, 2020) 등 밀집 패스지 레티버와 REALM, FiD 같은 후속 아키텍처들은 RAG의 실제 적용에서 검색, 인코딩 및 융합 메커니즘을 더욱 개선했습니다. 오늘날, RAG는 오픈 도메인 질문 답변, 과학 문헌 검색, 의료, 기업 지식 관리 등 다양한 상황에서 널리 활용되고 있으며, LLMs이 외부 지식을 효과적으로 활용할 수 있는 핵심 패러다임으로 자리잡고 있습니다.
그럼에도 불구하고 RAG가 지식의 최신화, 사실적 일관성 및 작업 적응성을 향상시키는 데 큰 발전을 이루었음에도 불구하고, 전체 성능은 여전히 검색 모듈이 반환하는 맥락 조각의 품질에 크게 의존합니다. 지속적인 도전 과제 중 하나는 사용자의 쿼리와 매우 관련성이 높으면서 동시에 충분한 내용 다양성을 보이는 결과를 어떻게 확보할 것인가입니다. 여러 실증 연구들은 top-k 검색에서 시스템이 겹치거나 거의 중복된 조각을 반환하는 경향이 있으며, 특히 문서가 밀집되어 쪼개지거나 코퍼스가 매우 중복될 때 더욱 그렇다는 것을 발견했습니다. 이러한 중복은 값진 맥락 창(토큰 예산)을 낭비하고 핵심 정보를 가리며 모델의 깊은 추론, 비교적분석 또는 다각도 통합 능력을 제한할 수 있어 사실 정확성과 논리적 일관성을 저하시키는 원인이 됩니다.
예를 들어, 여러 단계 질문 답변 및 다수 증거 추론 작업에서 레티버가 본질적으로 동일하지만 거의 비슷하게 표현된 조각을 주로 반환하면 모델은 완전한 인과 체인이나 다양한 관점을 획득하는 데 어려움을 겪게 됩니다. 이러한 유사 관련성 현상이 RAG 시스템에서 환영화의 중요한 기여 요소임을 보여주며, 충분히 이질적인 증거가 부족하면 모델은 내부 사전 정보에 의존하고 표면적으로 일관되지만 외부적 지원 없이 잘못된 내용을 생성할 수 있습니다.
이러한 조각 중복과 환영화 문제를 해결하기 위해, MMR(Maximal Marginal Relevance) 및 그 변형들은 기존 RAG 시스템뿐만 아니라 GraphRAG와 FreshLLM 같은 신규 프레임워크에서도 널리 채택되었습니다. MMR은 검색된 후보군 집합 내의 관련성과 다양성을 균형 있게 유지함으로써 중복을 줄이고 커버리지를 향상시킵니다. 실제 적용에서는 효과적이지만, 이러한 접근법들에는 여전히 명확한 한계가 있습니다: (1) 그들의 가중치 매개변수는 수동 조정에 크게 의존하며 다양한 후보군 구조나 토큰 예산에 대해 동적으로 적응할 수 없습니다; (2) 로컬 그리디 선택만 지원하여 집합 단위의 전역 최적화를 달성하기 어렵고 가장 좋은 조각 조합을 놓치는 경우가 있습니다.
맥락 중복, 제한된 다양성 및 번거로운 매개변수 튜닝 문제를 체계적으로 해결하기 위해 본 논문에서는 중복 인식과 완전 적응형 가중치 기반의 새로운 맥락 점수화 및 선택 메커니즘을 제안하고 구현합니다. 구체적으로, 각 후보 조각과 쿼리 사이의 관련성을 측정하면서 동시에 선택된 조각들 간의 중복을 명시적으로 처벌하는 집합 단위 점수 함수를 설계했습니다. 전체 점수화 과정은 연관성 항과 중복 항 사이의 가중치 차이로 수학적으로 모델링되며, $\beta$ 매개변수가 이들 간의 타협을 조절합니다. 이를 기반으로 우리는 동적이고 적응형 $\beta$ 조절 전략을 추가 제안합니다: 후보군 평균 길이, 평균 관련성 및 중복 분포를 분석하여 쿼리와 예산 제약에 맞게 중복 가중치의 닫힌 형태 솔루션을 도출합니다. 이 전략은 $\beta$ 매개변수에 대한 원칙적인 닫힌 형태 추정 값을 제공하고 수동 매개변수 튜닝이나 외부 휴리스틱을 필요로 하지 않습니다. 또한 각 인스턴스 단위 $\beta$, 작은 검증 세트 및 도메인 특화 맞춤 조정에 대한 엔지니어링 구현을 제공하여 실제 상황에서의 방법의 견고성과 사용성을 향상시킵니다.
제안된 접근법의 이론적 기반과 실용 효과를 검증하기 위해, 우리는 중복 인식 적응 선택 프레임워크에 대한 엄격한 이론 분석을 수행합니다. 목적 함수의 $\varepsilon$-근사 서브모듈라성을 증명함으로써, 근사 서브모듈라성 하에서 그리디 선택에 대한 근사 보장을 확립합니다. 우리의 분석은 적응형 $\beta$ 메커니즘이 과도한 중복을 동적으로 억제하고 커버리지를 향상시키며 복잡한 데이터 분포나 긴밀한 예산 제약 하에서 성능 저하를 방지하는 방법을 더욱 자세히 밝혀냅니다. 실험은 제안된 방법이 전통적인 베이스라인보다 답변 품질, 커버리지 및 중복 제어와 같은 주요 지표에서 상당한 성능 개선을 보임을 입증합니다.
본 작업의 주요 기여는 다음과 같습니다:
(1) RAG 시나리오에서 맥락 중복과 제한된 다양성 등 핵심 도전 과제를 체계적으로 해결하기 위한 중복 인식 및 완전 적응형 맥락 점수화 및 선택 프레임워크를 제안합니다;
(2) 집합 단위 관련성-중복 병행 점수 함수를 설계하고 $\beta$ 매개변수에 대한 닫힌 형태의 적응적 솔루션을 도출하여 수동 튜닝 없이 동적, 인스턴스별 및 예산별 타협을 가능하게 합니다;
(3) 우리의 목표에 대한 $\varepsilon$-근사 서브모듈라성의 이론 분석과 증명을 제공하며 그리디 선택 알고리즘의 근접 전역 최적화를 위한 이론적 보장을 제공합니다.
관련 연구
리트리브-증강 생성 및 맥락 선택
현대 RAG 시스템은 일반적으로 DPR, ColBERT 또는 생이중 인코더 모델과 같은 밀집 또는 하이브리드 레티버를 초기 패스지 검색에 사용하고, 이후 순위 체계나 선택 모듈을 통해 최종 맥락을 조립합니다. 이러한 구조는 Natural Questions와 MS MARCO 등의 벤치마크에서 최고 성능을 달성하지만 실제 도메인 배포에서는 검색 정확도, 맥락 선택 품질 및 분포적 변화에 대한 견고성 등에서 도전 과제를 드러냅니다.
최근 연구들은 맥락 선택과 레티버 효과의 더 깊은 측면을 집중적으로 다루었습니다. 예를 들어, Xu et al.(2025)은 토큰 단위 프레임워크를 개발하여 검색된 맥락을 확장하는 것이 LLMs에 오해를 일으키고 답변 품질을 저하시킬 수 있음을 보였습니다. 다른 작업들은 구조화된 지식 통합을 탐구했습니다: KG²RAG와 같은 비슷한 지식 그래프 기반 레티버 시스템은 사실적 근거를 개선하지만 조각 세분화 및 겹침에 대한 새로운 질문도 제기합니다. HeteRAG(Yang et al., 2025)과 모듈러 레티버-제너레이터 아키텍처는 추출 및 생성 표현을 분리하는 방향으로 나아가고 있습니다.
그럼에도 불구하고 RAG에서 지속적인 도전 과제 중 하나는 선택된 맥락 조각 간의 중복과 겹침입니다. 대부분의 전통적인 레티버는 조각-쿼리 관련성을 우선시하며, 심지어 다양성 인식 재순위 체계인 MMR도 일반적으로 고정된 타협 가중치와 단기적 그리디 결정을 적용하기 때문에 선택된 맥락은 여전히 집합 수준에서 반복되거나 겹치는 정보를 포함할 수 있습니다. 이는 토큰 예산을 낭비하고 언어 모델 성능을 저하시키며 환영화를 증가시키고 사실 정확성을 감소시킬 수 있습니다. 최근에 중복 인식 및 다양성 촉진 방법이 등장했지만, 예를 들어 주의력 지도 자르기(AttentionRAG, Fang et al., 2025)와 동적 조각 선택은 여전히 휴리스틱이나 정적인 매개변수에 의존하고 수동 튜닝이 필요하며, 엄격한 토큰 제약 하에서 집합 단위 목표를 최적화하는 것은 한정적이어서 실용성과 확장성을 제한할 수 있습니다. 또한 많은 방법은 산업 규모 배포의 토큰 제약 및 의미 변동을 해결하지 못합니다.
이러한 부족함을 해결하기 위해, 우리는 쿼리 관련성과 집합 내 중복을 통합하는 원칙적인 집합 단위 목표를 갖는 중복 인식 점수화 프레임워크를 제안합니다. 우리의 접근법은 근사 서브모듈라성에 기반한 이론적 보장을 제공하며, 높은 커버리지와 낮은 중복 맥락 집합을 구축하기 위한 그리디 선택 알고리즘을 사용합니다. 특히, 우리는 후보군 특성 및 토큰 예산에 따라 시스템이 자동으로 조정할 수 있는 중복 타협 매개변수의 닫힌 형태 적응적 교정을 도입하여 수동 튜닝을 제거하고 다양한 도메인과 규모에서 견고성을 보장합니다. 실험은 우리의 접근법이 이전 베이스라인보다 더 나은 커버리지, 낮은 중복 및 향상된 답변 품질을 달성함을 입증합니다. 이 프레임워크는 실제 RAG 제약과 최적 맥락 선택 사이의 간극을 메우고 현대 RAG 시스템에 대한 효과적이고 이론적으로 기반한 해결책을 제공합니다.
리트리브-증강 생성 및 맥락 선택
관계성과 다양성을 균형 있게 유지하는 것은 검색 기반 시스템의 중앙 목표였습니다. 고전적인 MMR은 쿼리와의 유사도를 최대화하면서 이미 선택된 항목들과의 유사도를 최소화함으로써 중복을 줄이는 방식으로 항목을 선택합니다. 이 기본 개념은 정보 검색 및 텍스트 요약 분야에서 여러 확장이 이루어졌습니다. 예를 들어, 다양성 촉진 레티버 방법은 반-중복 성분을 강화하여 다양한 의미 군집을 커버하지만, 그 성능은 수동 조정된 관련성-다양성 계수에 크게 의존합니다. 결정적 포인트 프로세스(DPPs)는 결정 기반 선택을 통해 부분 집합 다양성을 모델링하며 강력한 이론적 속성을 제공하지만 후보군 규모가 늘어날수록 높은 계산 비용이 발생합니다. 서브모듈라 최적화 접근법은 미리 정의된 유틸리티 함수를 사용하여 MMR을 집합 단위 선택으로 일반화하지만 종종 고정된 또는 검증 조정된 매개변수에 의존해 새로운 후보군의 중복 구조에 덜 민감합니다. 임베딩 군집화 또는 중심 기반 선택은 의미적 커버리지를 강화하지만 세밀한 관련성과 미묘하지만 중요한 정보를 포기할 수 있습니다.
이 MMR과 관련된 접근법들에서 일관되게 나타나는 한계가 몇 가지 있습니다: (1) 고정 또는 수동 조정된 타협 매개변수에 의존하고, (2) 선택을 로컬적으로 최적화하고 전역적으로 최적화하지 않으며, (3) 후보군의 특성, 예를 들어 변화하는 중복 수준이나 의미 밀도에 적응하지 못합니다. 특히 RAG에서 가장 중요한 한계는 엄격한 토큰 제약 하에서 데이터베이스 검색 시 너무 많은 중복 조각을 선택하면 사용 가능한 토큰 예산을 낭비하고 하류 생성품질을 저하시키는 것입니다.
우리의 방법, 적응형 그리디 맥락 선택을 통한 중복 인식 점수화는 이러한 한계를 해결하기 위해 후보군 통계와 토큰 예산에 따라 관련성-중복 타협을 조절하는 완전 적응형 중복 인식 점수 함수를 도입하고 이를 개선된 점수화 메커니즘으로 RAG 맥락 선택 과정에 직접 통합하여 실제 토큰 제약 하에서 효율적이고 중복을 통제하는 검색을 가능하게 합니다.
선택 알고리즘 및 이론적 보장
서브모듈라 최적화를 기반으로 하는 선택 알고리즘은 데이터 부분 집합 선택, 문서 요약, 그리고 리트리브-증강 생성에 핵심적인 역할을 수행합니다. 서브모듈라성이라는 개념은 조합 최적화 문헌에서 처음 공식화되었으며(1978), 추가 항목이 더 작은 집합에 더해질 때 얻는 이익이 큰 집합에 더해질 때보다 크다는 감소하는 수익 속성을 설명합니다. 이러한 속성은 그리디 알고리즘이 강력한 이론적 보장을 제공할 수 있도록 합니다. 특히, 초기 증명에서 간단한 그리디 알고리즘은 모든 단조 서브모듈라 함수를 최대화하기 위해 카디널리티 제약 하에서 적어도 ($1-\frac{1}{e}$)-근사값을 달성한다고 밝혔습니다. 토큰 예산 RAG에서는 제약이 비용/예산 기반보다 순수한 카디널리티 기반에 더 가깝지만, 서브모듈라 프레임워크는 이러한 제약 하에서 효율적인 그리디 스타일 근사화를 동기 부여하는 가치가 있습니다.
맥락 선택 및 관련 문제에서는 서브모듈라 집합 함수가 관련성과 다양성을 모델링하기 위해 널리 채택되었습니다. 예를 들어, Lin과 Bilmes(2011)는 추출형 문서 요약을 위한 서브모듈라 함수를 활용하여 내용 커버리지와 중복 감소에 대한 실증적 및 이론적 이점을 입증했습니다. 최근에는 Wei et al.(2015) 및 Mirzasoleiman et al.(2016)이 머신 러닝 파이프라인에서 대규모 데이터 부분 집합 선택을 확장했으며, 서브모듈라성은 후보군 규모가 증가함에도 불구하고 효율적이고 이론적으로 타당한 선택 알고리즘을 가능하게 합니다.
우리의 방법, 적응형 그리디 맥락 선택을 통한 중복 인식 점수화는 이러한 이론적 속성을 상속합니다: 제안된 중복 인식 점수 함수는 실제 임베딩 분포에서 근사 서브모듈라성을 나타내므로 토큰 예산 선택 작업에 대한 증명 가능한 근접 최적화를 제공하는 그리디 선택 프로시저를 가능하게 합니다. 우리의 접근법에 대한 상세한 이론적 분석과 공식 보장은 4장에서 제시됩니다.
방법
중복 인식 점수 함수
리트리브-증강 생성(RAG) 파이프라인은 엄격한 토큰 예산 하에서 특히 고유한 맥락 선택을 하는 데 어려움을 겪습니다. 전통적인 유사성 기반 레티버는 쿼리와 선택된 조각 간의 관련성을 최대화하되, 선택 집합 내 정보 중복에 대해 크게 무시하여 예산 사용 효율성이 낮고 반복적 증거를 생성합니다.
이 문제를 해결하기 위해 우리는 각 후보 조각과 쿼리 사이의 관련성뿐만 아니라 선택된 집합 내 중복을 처벌하는 중복 인식 점수 함수를 도입합니다. 쿼리 임베딩 $q \in \mathbb{R}^d$와 후보 조각 임베딩 세트 $\mathcal{V} = \{c_1, \ldots, c_N\}$가 주어졌을 때, 모든 $q$ 및 $c_i$는 L2 정규화되어 단위 노름을 가지며, 우리는 쿼리와 일치하는 증거의 총 질량(즉, $\sum_{c \in C} \mathrm{sim}(q, c)$)을 최대화하면서 중복을 줄이는 $C \subset \mathcal{V}$ 부분 집합을 선택하려고 합니다.
공식적으로 후보 부분 집합 $C$에 대한 우리의 점수 함수는 다음과 같이 정의됩니다:
\begin
</div>
<div style="margin-top: 20px;"><a href="https://arxiv.org/pdf/2512.25052.pdf" target="_blank">ArXiv 원문 PDF 보기</a></div>
<div class="mobile-ad w-full my-6 text-center" style="border: 2px dashed red; background: #ffe6e6;"><ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1873718820012422" data-ad-slot="auto"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script></div>
<br>
<h4>📊 논문 시각자료 (Figures)</h4>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>
<h4 style="margin-top: 3rem; margin-bottom: 1rem; border-bottom: 1px solid #e5e7eb; padding-bottom: 0.5rem;">감사의 말씀</h4>
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.