계층적 트리 기반 정적 딥 리서치 에이전트
초록
본 논문은 대형 언어 모델(LLM)의 한계를 보완하기 위해, 깊이(Depth)와 폭(Breadth)이라는 두 사용자 조정 파라미터를 도입한 계층적 트리 구조의 정적 딥 리서치 에이전트(Static‑DRA)를 제안한다. Supervisor, Independent, Worker 에이전트로 구성된 다단계 워크플로우를 통해 다중 홉 검색과 병렬 하위 주제 탐색을 수행한다. DeepResearch Bench와 RACE 평가 프레임워크에서 depth = 2, breadth = 5, gemini‑2.5‑pro 모델을 사용했을 때 34.72점의 성과를 기록했으며, 파라미터를 증가시킬수록 연구 깊이와 점수가 상승함을 실증하였다.
상세 분석
Static‑DRA는 기존 Retrieval‑Augmented Generation(RAG) 파이프라인이 다중 턴, 복합적인 연구 질문에 대해 정보를 단일 패스에 의존하는 한계를 극복하고자 설계되었다. 핵심 설계는 ‘트리 기반 정적 워크플로우’이며, 이는 연구 과정을 사전 정의된 트리 구조로 전개한다는 의미다. 트리의 루트는 Supervisor 에이전트가 담당하며, 사용자가 지정한 Depth(트리의 깊이)와 Breadth(각 레벨에서 생성되는 하위 노드 수)를 기반으로 하위 노드인 Independent 에이전트를 생성한다. Independent 에이전트는 다시 Worker 에이전트를 파생시켜, 각각의 하위 주제에 대해 독립적인 검색·생성 루프를 수행한다.
Depth 파라미터는 연구 질문을 몇 단계의 추론·분해 과정을 거칠지를 결정한다. 예를 들어 Depth = 2이면, Supervisor → Independent → Worker의 2단계 하위 탐색이 이루어지며, 각 단계마다 새로운 프롬프트와 검색 쿼리를 생성한다. 이는 ‘다중 홉’ 검색이라고도 할 수 있으며, 초기 질문에 대한 표면적인 답변을 넘어서, 관련 논문·데이터베이스를 순차적으로 탐색해 심층적인 근거를 축적한다. Breadth 파라미터는 각 단계에서 동시에 진행되는 하위 주제의 수를 정의한다. Breadth = 5이면, 한 레벨에서 다섯 개의 독립적인 하위 질문이 생성되고, 각각이 병렬적으로 Worker 에이전트를 통해 처리된다. 이는 연구의 폭넓은 커버리지를 보장하면서도, LLM 호출을 병렬화해 전체 지연 시간을 제한한다.
아키텍처상의 Supervisor는 전체 트리의 진행 상황을 모니터링하고, 각 Independent와 Worker에게 작업 지시와 결과 통합을 담당한다. Supervisor는 메타 프롬프트를 사용해 “현재까지 수집된 근거와 질문의 맥락을 고려해 다음 하위 질문을 생성하라”는 식의 지시를 내리며, 이를 통해 트리 전반에 일관된 논리 흐름을 유지한다. Independent 에이전트는 자신에게 할당된 하위 질문을 구체화하고, 필요한 검색 키워드와 프롬프트를 설계한다. Worker 에이전트는 실제 LLM 호출과 외부 검색(API) 수행을 담당하며, 검색 결과와 LLM 생성 텍스트를 결합해 중간 보고서를 만든다. 최종적으로 Supervisor는 모든 Worker의 중간 보고서를 종합해 최종 연구 보고서를 작성한다.
실험에서는 DeepResearch Bench라는 공개된 연구 과제 집합에 Static‑DRA를 적용하였다. 평가 프레임워크인 RACE는 정량적 정확도, 근거 충실도, 논리 일관성 등을 종합 점수로 환산한다. Depth = 2, Breadth = 5, gemini‑2.5‑pro 모델을 사용했을 때 34.72점이라는 결과는 기존 정적 RAG 기반 시스템보다 현저히 높은 점수이며, 특히 근거 충실도와 다중 홉 추론 능력에서 큰 개선을 보였다. 파라미터 스위핑 실험에서는 Depth와 Breadth를 각각 13, 37 범위로 늘렸을 때 점수가 선형에 가깝게 상승했지만, LLM 호출 비용과 응답 시간도 비례적으로 증가함을 확인했다. 이는 사용자가 연구 품질과 비용 사이에서 명시적인 트레이드오프를 선택할 수 있음을 의미한다.
또한, 코드와 실험 결과를 모두 GitHub에 공개함으로써 재현성을 확보하고, 커뮤니티가 파라미터 튜닝, 에이전트 모듈 교체, 새로운 LLM 모델 적용 등을 자유롭게 시도할 수 있는 기반을 제공한다. 한계점으로는 트리 구조가 사전에 고정돼 있어, 동적 상황 변화(예: 새로운 정보가 급증하거나 질문이 급격히 변형될 때)에 대한 적응성이 떨어진다는 점을 지적한다. 향후 연구에서는 트리 구조를 동적으로 재구성하거나, 강화학습 기반 정책으로 Depth/Breadth를 자동 조정하는 메커니즘을 도입할 여지가 있다.
요약하면, Static‑DRA는 “사용자 친화적 파라미터 → 계층적 트리 워크플로우 → 병렬 다중 홉 검색”이라는 설계 삼각형을 통해, LLM 기반 연구 에이전트의 품질·비용 제어를 가능하게 한 혁신적인 프레임워크이며, 현재 공개된 벤치마크에서 경쟁력 있는 성과를 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기