HybridRAG 비정형 문서 기반 실시간 챗봇을 위한 사전 QA 생성 프레임워크

HybridRAG 비정형 문서 기반 실시간 챗봇을 위한 사전 QA 생성 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HybridRAG는 OCR·레이아웃 분석으로 추출한 원시 PDF를 계층형 청크로 정리하고, LLM을 이용해 사전 QA 은행을 구축한다. 질의 시에는 질문 임베딩과 매칭해 적합한 QA가 있으면 즉시 답변을 반환하고, 없을 경우에만 온‑디맨드 생성으로 전환한다. OHRBench 실험에서 기존 RAG 대비 응답 품질과 지연시간 모두 향상된 것으로 입증된다.

상세 분석

HybridRAG는 기존 RAG가 전제하는 “정형 텍스트” 가정에 도전한다. 먼저 MinerU 기반 레이아웃 분석과 PaddleOCR을 결합해 텍스트, 표, 이미지 영역을 정확히 구분하고, 이미지·표는 GPT‑4o 프롬프트를 통해 자연어 설명으로 변환한다. 이렇게 얻어진 원시 텍스트는 RAPTOR 영감을 받은 계층형 청크 트리로 재구성되는데, 상위 노드는 문서 전체 요약, 하위 노드는 문단·섹션 수준의 세부 정보를 담는다. 청크별 핵심 키워드를 GPT‑4o‑mini로 추출하고, 키워드 수를 계층 깊이에 따라 가변적으로 배정함으로써 정보 밀도에 비례하는 QA 생성량을 확보한다. QA 생성 단계에서는 체인‑오브‑생각(Chain‑of‑Thought) 프롬프트와 “질문은 청크 내용만 사용”이라는 강제 제약을 두어, 사실왜곡을 최소화하고 중복을 방지한다. 생성된 QA 쌍은 BGE‑M3 dense encoder로 임베딩해 인덱싱한다. 질의 시에는 동일 encoder로 질문을 벡터화하고, 상위 3개 QA와 내적 유사도를 계산한다. 최고 유사도가 사전 정의된 임계값(예: 0.9) 이상이면 해당 QA의 답변을 바로 반환해 LLM 호출을 생략한다. 임계값 이하이면, 매치된 청크들을 컨텍스트로 제공하고 Llama‑3.2‑3B‑Instruct 혹은 Qwen2.5‑3B‑Instruct에 온‑디맨드 생성 요청을 보낸다. 이 설계는 “자주 묻는 질문”은 즉시 처리하고, “예외적·복합 질문”은 기존 RAG와 동일한 정확성을 유지하도록 만든다. 실험에서는 7개 도메인(법률, 금융, 교과서 등) 1,261개 PDF와 8,498개의 정답 QA를 포함한 OHRBench를 사용했다. 평가 지표(F1, BERTScore, ROUGE‑L)와 평균 응답 지연시간을 기준으로, HybridRAG는 표준 RAG 대비 평균 지연시간을 30‑50% 단축하고, 품질 지표에서도 소폭 상승을 기록했다. 특히 Llama‑3.2 기반에서는 지연시간 감소 효과가 두드러졌으며, Qwen2.5에서는 품질 향상이 더 크게 나타났다. 간소화 버전(HybridRAG‑simplified)은 텍스트만 사용했음에도 표준 RAG보다 우수한 성능을 보여, 사전 QA 은행 자체가 큰 가치를 지님을 증명한다. 한계점으로는 QA 생성 비용이 사전 단계에서 크게 소모된다는 점과, 이미지·표 설명에 LLM 의존도가 높아 OCR 오류가 전파될 위험이 있다. 향후 멀티모달 비전‑언어 모델을 직접 통합하거나, 동적 QA 업데이트 메커니즘을 도입해 최신 문서 반영을 자동화하는 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기