계층 구조 인덱스를 활용한 도서형 RAG

초록

BookRAG는 책·핸드북 등 계층적 구조를 가진 문서에 특화된 Retrieval‑Augmented Generation 모델이다. 문서의 목차와 유사한 트리 구조를 추출하고, 엔티티 간 관계를 그래프로 연결한 BookIndex를 구축한다. 이 인덱스를 기반으로 정보 탐색 이론에 착안한 에이전트가 질의를 유형별로 분류하고, 단계별 검색·정제 과정을 수행한다. 세 개 벤치마크에서 기존 RAG 대비 검색 재현율과 QA 정확도가 크게 향상되었으며, 효율성도 유지한다.

상세 요약

BookRAG의 핵심 기여는 두 가지 차원에서 기존 RAG의 한계를 극복한다는 점이다. 첫째, 문서 내부의 논리적 계층을 명시적으로 모델링한다. 저자들은 원본 텍스트에서 챕터·섹션·서브섹션 등을 자동으로 식별하고, 이를 트리 형태의 BookIndex로 변환한다. 이 트리는 전통적인 역색인과 달리 “상위‑하위” 관계를 보존하므로, 질의가 특정 레벨(예: 챕터 전체 vs. 특정 절)에서 발생했을 때 적절한 granularity의 텍스트를 빠르게 찾아낼 수 있다. 둘째, 엔티티 그래프를 도입해 문서 내 개념·용어 간의 연관성을 포착한다. 명사구 추출·코어퍼런스 해소 과정을 거쳐 엔티티를 노드로, 동시 등장·인용·정의 관계를 엣지로 연결함으로써, 단순 키워드 매칭이 놓치는 의미적 연결을 보완한다.

검색 단계에서는 Information Foraging Theory(IFT)를 차용한 에이전트 기반 워크플로우를 설계했다. 질의가 “사실 확인형”, “정의·관계 탐색형”, “절차·예시 요구형” 등으로 자동 분류되면, 각각에 최적화된 검색 경로가 선택된다. 예를 들어 정의 탐색형 질의는 엔티티 그래프를 우선 탐색해 관련 노드와 연결된 텍스트 조각을 추출하고, 이후 트리 상에서 해당 노드가 속한 섹션을 확장한다. 반면 절차 요구형은 트리 깊이를 깊게 탐색해 연속적인 단계 서술을 확보한다. 이렇게 다단계 필터링을 거친 문서 조각은 LLM에 프롬프트로 전달돼 최종 답변을 생성한다.

실험에서는 학계에서 널리 쓰이는 “BookQA”, “HandbookQA”, “LegalDocQA” 세 데이터셋을 사용했다. BookRAG는 기존 BM25‑based RAG, DPR‑based RAG, 그리고 최신 Fusion‑in‑Decoder 모델에 비해 Top‑5 재현율을 평균 12%p 상승시켰으며, QA 정확도(F1) 역시 8~10%p 개선했다. 효율성 측면에서는 인덱스 구축 비용이 초기 1시간 내외(문서 2000 페이지 기준)로 제한적이며, 질의당 평균 응답 시간은 1.3초로 실시간 서비스에 충분히 적용 가능하다.

한계점으로는 트리 구조 추출이 문서 포맷에 크게 의존한다는 점이다. PDF·HTML 등 비정형 텍스트에서는 챕터 구분이 모호해 오류가 발생할 수 있다. 또한 엔티티 그래프 구축에 사용된 명사구 추출기가 도메인 특화 용어를 놓치는 경우, 관계 탐색 효율이 저하될 가능성이 있다. 향후 연구에서는 멀티모달(이미지·표) 정보를 포함한 하이브리드 인덱스와, 자기 지도 학습을 통한 엔티티 정밀도 향상이 기대된다.

초록

상세 요약

📜 논문 원문 (영문)