전략‑운영 격차를 메우는 동적 에이전트형 RAG 프레임워크 JADE
초록
JADE는 플래너와 실행기(리트리버·리더·생성기)를 하나의 LLM 백본에 공유 파라미터로 묶어, 전역 보상 기반 강화학습으로 공동 최적화한다. 이를 통해 전략적 플래닝과 실행기의 실제 능력 사이의 불일치를 해소하고, 동적 워크플로우를 유지하면서도 학습 안정성을 확보한다. 실험 결과, 7개의 베엔치마크에서 기존 디커플드 혹은 단일 모듈 방식보다 현저히 높은 정확도와 효율성을 달성한다.
상세 분석
JADE는 기존 RAG 시스템이 겪는 ‘전략‑운영 불일치’를 근본적으로 해결한다는 점에서 의미가 크다. 기존 정적 공동 최적화 방식은 고정된 파이프라인(쿼리 리라이터 → 문서 선택 → 답변 생성)으로 유연성이 부족하고, 동적 플래너‑실행기 구조는 플래너는 학습하지만 실행기는 고정된 블랙박스로 남겨두어 플래너가 설계한 복잡한 전략을 실행기가 따라가지 못한다는 한계가 있다. JADE는 이러한 두 패러다임을 통합한다. 구체적으로, 시스템을 다중 에이전트 반마코프 결정 과정(MSMDP)으로 모델링하고, 전역 상태 S 는 전체 대화 히스토리와 현재 작업 트레이스를 포함한다. 관측 Ω 는 각 역할(플래너, 쿼리 리라이터, 리트리버 등)에 맞게 필터링된 히스토리와 현재 서브쿼리를 결합해 제공한다. 행동 A 는 플래너가 선택하는 워크플로우 그래프와 실행기들이 수행하는 구체적 텍스트 생성·검색 행동으로 구분된다. 모든 에이전트는 동일한 LLM 파라미터 θ 를 공유하며, 역할별 프롬프트 p₍ρ₎ 를 통해 기능을 구분한다. 목표는 전역 보상 R (정답 정확도, 비용 등)을 최대화하는 정책 π_θ 를 학습하는 것으로, 이는 공동 보상 구조를 갖는 협력 MARL 이론에 기반한다. 파라미터 공유는 학습 효율성을 크게 높이고, 플래너가 실행기의 실제 성능 한계를 내재화하도록 만든다(코-어댑테이션). 실험에서는 7B 규모 모델이 GPT‑4o 기반 디커플드 시스템을 능가했으며, 연산 비용 대비 성능 향상이 두드러졌다. 또한, 동적 워크플로우 선택을 통해 복잡한 멀티홉 질문에 대해 효율적인 병렬 검색·요약 전략을 자동으로 구성한다는 점에서 실용성이 높다. 전반적으로 JADE는 전략‑운영 간 격차를 메우는 동시에, 모듈화된 구조와 엔드‑투‑엔드 학습의 장점을 모두 취합한 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기