인지 기반 테마 정렬 이중 하이퍼그래프 RAG
초록
Cog‑RAG는 인간의 상향식 사고를 모방해 문서 전체의 주제 구조를 테마 하이퍼그래프로, 문서 내부의 다중 엔티티 관계를 엔티티 하이퍼그래프로 각각 모델링한다. 두 단계의 검색 전략—먼저 테마 하이퍼그래프에서 주제 관련 하이퍼엣지를 활성화하고, 이어서 엔티티 하이퍼그래프에서 상세 정보를 확산·검색—을 통해 전역‑전국 일관성을 확보한다. 실험 결과, 다양한 도메인·의료 데이터셋에서 기존 GraphRAG·LightRAG 등 최첨단 방법들을 크게 앞선 성능을 보였다.
상세 분석
Cog‑RAG는 기존 RAG 연구가 주로 “평면적인” 청크‑레벨 벡터 매칭에 의존하거나, 엔티티 간 2‑차 관계만을 그래프 형태로 인코딩하는 한계를 뛰어넘는다. 논문은 두 가지 차원의 하이퍼그래프를 도입한다. 첫 번째인 테마 하이퍼그래프는 문서 청크를 슬라이딩 윈도우로 분할한 뒤, LLM‑기반 프롬프트를 활용해 각 청크의 “주제 라벨”과 해당 주제와 강하게 연관된 핵심 엔티티를 추출한다. 이때 추출된 주제 라벨 자체가 하이퍼엣지 역할을 하며, 연결된 핵심 엔티티들은 정점으로 구성된다. 이렇게 하면 문서 전체에 걸친 전역적인 주제 흐름이 그래프 구조로 명시화돼, 인간이 문제를 해결할 때 먼저 큰 그림을 떠올리는 과정과 일치한다.
두 번째인 엔티티 하이퍼그래프는 동일 청크 내부에서 추출된 엔티티들을 정점으로 삼고, 저차원(쌍) 관계와 고차원(다중) 관계를 각각 E_low와 E_high라는 두 종류의 하이퍼엣지로 표현한다. 고차원 하이퍼엣지는 “공동 발생”, “인과 관계”, “공통 속성” 등 복합적인 의미 연결을 포착한다. 이는 기존 GraphRAG가 엔티티 간 단순 연결만을 저장해 발생하는 의미 손실을 크게 감소시킨다.
검색 단계는 인지심리학의 “상향식(top‑down) 정보 처리” 모델을 차용한다. ① 질의에서 주제 키워드를 LLM으로 추출하고, 이를 테마 하이퍼그래프에 매핑해 관련 하이퍼엣지를 상위 k개 선택한다. 선택된 하이퍼엣지는 인접 정점(핵심 엔티티)으로 확산(diffusion)돼, 초기 “주제‑기반” 컨텍스트 A_theme를 생성한다. ② A_theme를 바탕으로 질의와 정렬된 주제에 맞는 구체적인 엔티티 키워드를 다시 추출하고, 엔티티 하이퍼그래프에서 해당 정점을 검색한다. 정점 주변의 고차원 하이퍼엣지를 확산해 상세한 관계 정보를 확보하고, 이를 A_theme와 결합해 최종 답변 A를 LLM에 전달한다.
이 두 단계는 (1) 전역 주제와 지역 상세 정보 사이의 의미 정렬을 보장하고, (2) 하이퍼그래프 구조를 활용해 정보 손실 없이 고차원 관계를 전달한다는 점에서 혁신적이다. 실험에서는 UltraDomain(다중 도메인)과 MIRA‑GE(의료) 데이터셋을 사용해, 정확도·정밀도·재현율·BLEU·ROUGE 등 다섯 가지 메트릭에서 기존 GraphRAG·LightRAG·Hi‑RAG 등을 평균 6~12%p 상회한다. 특히 의료 분야에서 “주제‑세부 일관성” 점수가 크게 개선돼, 실제 임상 질의 응답에 유용함을 시사한다.
한계점으로는 (1) 테마·엔티티 추출에 LLM 프롬프트 의존도가 높아, 프롬프트 설계가 성능에 큰 영향을 미친다. (2) 하이퍼그래프 구축 및 확산 연산이 메모리·시간 복잡도를 증가시켜, 대규모 코퍼스(수십 GB)에서는 효율성 최적화가 필요하다. (3) 현재는 정적인 코퍼스에만 적용 가능하므로, 실시간 업데이트가 요구되는 검색 엔진에는 추가 연구가 요구된다.
향후 연구 방향은 (i) 프롬프트 자동 최적화 및 라벨링 품질 향상을 위한 자기지도 학습, (ii) 하이퍼그래프 압축·샘플링 기법을 통한 스케일링, (iii) 멀티모달(텍스트·이미지·표) 하이퍼그래프 통합, (iv) 인간‑LLM 인터랙션을 통한 주제‑세부 피드백 루프 구축 등이다. 전반적으로 Cog‑RAG는 “주제 → 세부” 흐름을 구조화하고, 고차원 관계를 보존함으로써 RAG 시스템의 신뢰성과 설명 가능성을 크게 향상시킨다.
댓글 및 학술 토론
Loading comments...
의견 남기기