다양성을 살린 RAG, DIVERGE로 열린 질문에 답하다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 기존 검색‑증강 생성(RAG) 시스템이 단일 정답 가정에 머물러 다수의 타당한 답변이 존재하는 열린 질문에서 다양성을 충분히 이끌어내지 못한다는 문제를 지적한다. 이를 해결하기 위해 플러그‑인형 에이전트형 프레임워크인 DIVERGE를 제안한다. DIVERGE는 반성‑가이드 생성, 메모리 기반 반복 정제, 관점‑조건부 검색을 결합해 다양한 시각을 동시에 확보하면서도 답변 품질을 유지한다. 새로운 다양성‑품질 지표와 통합 조화 점수를 도입해 Infinity‑Chat 벤치마크에서 기존 방법들을 크게 앞서는 성능을 보이며, 특히 의미적 다양성을 2.5배, 관점 다양성을 1.6배 향상시켰다.

상세 분석

DIVERGE 논문은 현재 LLM 기반 RAG 시스템이 “단일 정답 편향(single‑answer bias)”에 의해 다변량 정보를 충분히 활용하지 못한다는 근본적인 한계를 체계적으로 분석한다. 저자들은 세 가지 주요 문제(C1‑C3)를 제시한다. 첫째, 기존 파이프라인은 고신뢰도 하나의 답변에 집중해 대안적 관점을 무시한다(C1). 둘째, 반복적인 생성 과정에서 이전에 탐색된 관점을 메모리에 보존하지 않아 다중 출력 간 다양성 보존이 결여된다(C2). 셋째, 대부분의 다양성 증진 기법이 토큰‑레벨 로그에 의존하거나 온도·탑‑p 같은 디코딩 파라미터를 필요로 하여, GPT‑5·o3 등 폐쇄형 최신 모델에 적용하기 어렵다(C3).

이를 극복하기 위해 DIVERGE는 “반성‑가이드(viewpoint‑guided) 생성” 모듈을 도입한다. 초기 질의에 대해 기본 RAG로 여러 근거 문서를 검색하고, LLM에게 “현재까지 다루지 않은 관점을 찾아라”는 메타‑프롬프트를 제공해 새로운 관점을 도출한다. 도출된 관점은 메모리 버퍼에 저장되고, 이후 단계에서 관점‑조건부 검색을 수행해 해당 관점에 맞는 추가 증거를 확보한다. 이렇게 확보된 증거와 메모리 내 관점을 결합해 “증거‑기반 생성(evidence‑grounded generation)”을 수행하고, 최종적으로 “반성‑기반 재정제(reflection‑based refinement)”를 거쳐 답변을 완성한다.

핵심 기술적 혁신은 다음과 같다. (1) 반성‑가이드 프롬프트: LLM이 내부 잠재 특징을 선택적으로 활성화하도록 설계돼, 동일 질의에 대해 서로 다른 사고 흐름을 유도한다. (2) 경량 메모리 구조: 관점과 증거를 압축 저장해 반복 단계에서 재활용함으로써, 다중 생성 사이에 정보 손실을 최소화하고 다양성 붕괴를 방지한다. (3) 관점‑조건부 검색: 기존의 단순 top‑k 검색이 아니라, 현재 생성된 관점에 맞는 문서를 재검색해 관점‑다양성을 직접 강화한다. (4) 플러그‑인 호환성: 토큰‑레벨 로그를 요구하지 않으며, API‑기반 폐쇄형 모델에도 동일하게 적용 가능하도록 설계되었다.

평가 측면에서 저자들은 기존 RAG 평가 지표가 정답 기반이라 열린 질문에 부적합함을 지적하고, 두 가지 새로운 다양성 지표를 제안한다. Semantic Diversity는 전체 응답의 의미적 폭을 측정하고, Viewpoint Diversity는 응답을 원자적 관점 집합으로 분해해 관점 간 차이를 정량화한다. 품질 평가는 LLM‑as‑judge 방식을 채택해 인간 평가와 높은 상관성을 보였다. 두 지표와 품질 점수를 조화시킨 Unified Diversity‑Quality Harmonic Score를 최종 성능 지표로 사용한다.

실험은 실제 서비스 환경을 모사한 Infinity‑Chat 데이터셋(다양한 문화·관점·주제가 혼합된 대화형 질의)에서 진행되었다. DIVERGE는 기본 RAG 대비 의미적 다양성을 약 2.5배, 관점 다양성을 1.6배 향상시키면서, 품질 점수는 0.3% 미만 감소에 그쳤다. 또한, 기존 프롬프트 기반 다양성 강화 기법(예: Diverse‑Prompt, Multi‑View Prompt)과 비교했을 때, 품질 저하 없이 동일 수준 이상의 다양성을 달성했다. Ablation 연구에서는 반성‑가이드, 메모리, 관점‑조건부 검색 각각이 독립적으로 다양성에 기여함을 확인했으며, 특히 메모리와 관점‑조건부 검색을 결합했을 때 가장 큰 시너지 효과가 나타났다.

결론적으로, DIVERGE는 “다양성‑품질 트레이드오프”라는 핵심 문제를 구조적으로 해결함으로써, 폐쇄형 LLM을 포함한 현대 AI 시스템이 열린 정보 탐색 시에도 편향되지 않은 다채로운 답변을 제공할 수 있음을 입증한다. 이는 향후 AI‑지원 검색, 교육, 정책 자문 등 다양한 도메인에서 공정하고 포괄적인 정보 제공을 위한 중요한 전환점이 될 것으로 기대된다.

다양성을 살린 RAG, DIVERGE로 열린 질문에 답하다

초록

상세 분석

댓글 및 학술 토론

의견 남기기