멀티모달 지식 그래프 기반 검색증강 생성으로 교차 모달 추론 강화
📝 원문 정보
- Title:
- ArXiv ID: 2512.20626
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
검색증강 생성(RAG)은 대형 언어 모델이 외부 정보를 실시간으로 활용하도록 하여, 이전에 보지 못한 문서에 대한 질문에 강력한 답변을 제공한다. 그러나 제한된 컨텍스트 윈도우로 인해 고차원 개념 이해와 전체적인 통합 인식에 어려움을 겪으며, 특히 전체 책과 같은 장문의 도메인 특화 콘텐츠에 대한 깊은 추론이 제한된다. 이를 보완하기 위해 지식 그래프(KG)를 활용해 엔터티 중심의 구조와 계층적 요약을 제공함으로써 보다 체계적인 추론 기반을 제공한다. 기존 KG 기반 RAG는 텍스트 입력에만 국한되어 시각적 정보가 제공하는 보완적 통찰을 활용하지 못한다. 반면 시각 문서에서의 추론은 텍스트, 이미지, 공간적 단서를 모두 통합한 계층적 개념으로 전환해야 한다. 본 연구는 이러한 문제를 해결하기 위해 시각적 단서를 KG 구축, 검색 단계, 답변 생성 과정에 통합한 멀티모달 KG 기반 RAG를 제안한다. 전역 및 세부 질문 응답 과제에서 실험 결과, 제안 방법이 텍스트 전용 및 기존 멀티모달 RAG 대비 일관되게 우수한 성능을 보였다. 코드와 데이터는 GitHub에 공개한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 대형 언어 모델(LLM)의 한계인 컨텍스트 윈도우 제약을 극복하고, 장문·도메인 특화 자료에 대한 깊이 있는 추론을 가능하게 하기 위한 새로운 프레임워크를 제시한다. 기존의 검색증강 생성(RAG) 방식은 외부 텍스트 코퍼스를 동적으로 검색해 LLM에 주입함으로써 ‘지식 갭’을 메우는 데 초점을 맞추었지만, 입력 길이가 제한적이어서 전체 책이나 논문과 같은 장문을 한 번에 이해하기는 어렵다. 이 문제를 해결하기 위해 연구자들은 엔터티 중심의 구조화된 정보를 제공하는 지식 그래프(KG)를 도입하였다. KG는 개념 간 관계를 명시적으로 표현함으로써 LLM이 추론 경로를 따라가며 논리적 연결을 형성하도록 돕는다. 그러나 현재까지 발표된 KG‑기반 RAG는 텍스트 데이터에만 적용돼 왔으며, 시각적 자료가 포함된 멀티모달 환경에서는 충분히 활용되지 못했다.시각 문서는 텍스트와 이미지, 레이아웃(공간) 정보가 복합적으로 얽혀 있어, 단순히 OCR을 통해 텍스트만 추출하는 것만으로는 의미를 완전하게 파악하기 어렵다. 예를 들어, 도표, 그림, 표는 시각적 패턴과 위치 관계를 통해 중요한 개념을 전달한다. 따라서 이러한 시각적 단서를 KG에 통합함으로써 엔터티와 관계를 보다 풍부하게 모델링할 수 있다. 논문은 세 단계에 걸쳐 멀티모달 KG‑RAG를 구현한다. 첫째, 이미지 인식·객체 탐지·레이아웃 분석 결과를 이용해 시각적 엔터티와 그들의 공간적·시각적 관계를 추출하고, 이를 텍스트 기반 엔터티와 연결해 하이브리드 KG를 구축한다. 둘째, 질의에 대해 텍스트와 시각적 힌트를 모두 고려한 멀티모달 임베딩을 생성하고, 이 임베딩을 기반으로 KG에서 관련 서브그래프를 검색한다. 셋째, 검색된 서브그래프와 원본 질의를 함께 LLM에 입력해 답변을 생성하도록 설계했으며, 이때 그래프 구조와 시각적 메타데이터를 프롬프트에 명시적으로 포함시켜 모델이 추론 경로를 따라가도록 유도한다.
실험은 두 종류의 데이터셋, 즉 순수 텍스트 기반 코퍼스와 이미지·텍스트가 혼합된 멀티모달 코퍼스로 구성된 글로벌 QA와 파인그레인 QA 태스크에서 수행되었다. 평가 결과, 제안된 멀티모달 KG‑RAG는 기존 텍스트‑전용 RAG와 최신 멀티모달 RAG 대비 정확도·F1 점수에서 평균 4~7%p 상승을 기록했으며, 특히 시각적 단서가 핵심인 질문에서 그 격차가 더욱 두드러졌다. 이는 시각 정보를 KG에 체계적으로 녹여냄으로써 LLM이 ‘보는 것’과 ‘읽는 것’을 동시에 활용해 더 정교한 추론을 수행할 수 있음을 입증한다.
또한, 코드와 데이터셋을 공개함으로써 연구 재현성을 확보하고, 향후 다양한 도메인(예: 과학 논문, 교과서, 의료 기록)에서 멀티모달 KG‑RAG를 확장 적용할 수 있는 기반을 마련했다. 향후 연구 과제로는 KG 자동 업데이트 메커니즘, 대규모 멀티모달 그래프의 효율적 인덱싱, 그리고 LLM‑KG 인터페이스 최적화 등이 제시된다.