그룹RAG: 문제 구조를 활용한 지식 기반 검색·추론 프레임워크

GroupRAG는 질문을 키포인트로 분해하고, 지식‑드리븐 그룹화를 통해 잠재적 구조를 드러낸 뒤, 각 그룹별로 검색·추론을 수행한다. 로컬 추론 결과를 핵심·보조·노이즈로 구분하고, 강화학습 기반 글로벌 추론 모듈이 이를 통합해 최종 답안을 만든다. MedQA 실험에서 기존 RAG·CoT 기반 모델들을 크게 앞섰다.

저자: Xinyi Duan, Yuanrong Tang, Jiangtao Gong

그룹RAG: 문제 구조를 활용한 지식 기반 검색·추론 프레임워크
**1. 서론** 대형 언어모델은 파라미터에 내재된 지식만으로는 복잡하고 지식‑집약적인 질문, 특히 의료와 같은 실세계 도메인에서 한계를 보인다. 기존 Retrieval‑Augmented Generation(RAG)과 Chain‑of‑Thought(CoT) 접근법은 각각 외부 지식 활용과 단계적 추론을 도입했지만, 질문을 하나의 평탄한 텍스트로 취급해 구조적 정보를 놓치는 문제가 있다. 인지과학에서는 인간이 문제를 “구조화된 문제 공간”으로 재구성하고, 여러 시작점에서 동시에 탐색한다는 점을 강조한다. 논문은 이러한 인지적 통찰을 바탕으로, 질문 내부의 잠재적 구조를 명시적으로 모델링하는 것이 성능 향상의 핵심이라고 주장한다. **2. 관련 연구** CoT는 선형·다중 경로 추론을 제시했으며, 최근 트리·그래프 형태로 확장되었지만 여전히 단일 시작점에 의존한다. RAG는 외부 문서를 검색해 파라미터 지식의 한계를 보완했지만, 검색 granularity가 질문 전체 수준에 머물러 불필요한 정보가 섞이기 쉽다. 구조화된 검색·추론을 시도한 연구들은 그래프 기반 지식베이스나 단계적 인터랙션을 도입했지만, 시스템 복잡도가 증가하거나 여전히 질문을 단일 단위로 처리한다는 한계를 갖는다. **3. 방법론** GroupRAG는 다섯 단계 파이프라인을 제시한다. - **키포인트 추출**: 대형 LM을 이용해 질문에서 핵심 개념·증상·조건 등을 자동으로 식별한다. - **지식‑드리븐 그룹화**: 추출된 키포인트를 외부 의료 지식(가이드라인, 논문)과 연결해 의미·인과관계 기반 그룹으로 묶는다. 이 과정은 단순 의미적 유사도 매칭이 아니라, 도메인 지식에 근거한 그룹 라벨링을 수행한다. - **그룹별 검색·로컬 추론**: 각 그룹에 특화된 검색 쿼리를 생성해 RAG 방식으로 문서 조각을 가져오고, 소규모 특화 LM이 해당 그룹에 대해 로컬 CoT를 생성한다. 로컬 결과는 핵심(Core), 보조(Support), 노이즈(Noise)로 라벨링된다. - **글로벌 추론**: 첫 번째 단계는 강화학습(Policy Gradient) 기반 선택 모델이 로컬 결론 집합을 평가한다. 보상 함수인 Weighted Inference F‑score(WIF)는 핵심 결론 회수, 노이즈 억제, 보조 결론 활용을 동시에 고려한다. 두 번째 단계는 선택된 결론들을 자연스러운 연속형 CoT로 합성하는 합성 모델이다. - **답변 정렬**: 최종 글로벌 CoT를 바탕으로 후보 옵션을 재검색하고, 정답 선택과 근거 설명을 출력한다. 각 단계는 독립적인 모듈로 구현되며, 대규모 데이터셋을 통해 단계별 입력·출력을 기록한 뒤, 각각의 소형 LM을 하드 라벨로 파인튜닝한다. 특히 글로벌 추론 단계는 하드 라벨만으로는 복합적인 선택 관계를 학습하기 어려워 RL을 도입해 정책을 미세조정한다. **4. 실험** 평가 데이터는 미국 의학 시험 기반 MedQA이며, 4개의 선택형 질문을 대상으로 정확도를 측정한다. 비교 대상은 (1) 기본 RAG(FiD‑RAG, RAG‑Fusion), (2) 다양한 CoT 변형(Zero‑Shot CoT, Self‑Consistency, Tree‑CoT), (3) 구조화된 검색·추론 모델(그래프‑RAG 등)이다. GroupRAG는 평균 78.3%의 정확도를 기록했으며, 가장 강력한 베이스라인인 RAG‑Fusion(73.1%)보다 5.2%p, 최고 CoT 변형(74.0%)보다 4.3%p 높은 성능을 보였다. **5. 분석 및 토론** - **그룹화 효과**: 지식‑드리븐 그룹화를 제거하고 단순 키워드 기반 그룹화만 적용하면 정확도가 3~4%p 급감한다. 이는 그룹 라벨링이 검색·추론의 granularity를 적절히 조절함을 의미한다. - **모듈별 기여**: 로컬 추론만 사용하거나 글로벌 선택 없이 단순 결합만 할 경우 성능이 현저히 낮아, 각 모듈의 상호 보완성이 중요함을 확인했다. - **해석 가능성**: 각 로컬 결론과 그 라벨링이 인간 전문가의 진단 흐름과 유사하게 나타나, 모델의 추론 과정을 시각화·검증하기 용이하다. **6. 한계 및 미래 연구** 현재는 의료 도메인에 한정된 실험이며, 키포인트 추출·그룹화 모델이 도메인 특화 데이터에 크게 의존한다. 향후에는 (1) 다중 도메인에 대한 일반화, (2) 멀티모달(이미지·표) 지식베이스와의 연계, (3) 대형 LM과의 End‑to‑End 통합을 통해 구조‑인식 기반 RAG의 범용성을 확대할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기