재난 대응을 위한 계층형 멀티모달 RAG RAPTOR AI

재난 대응을 위한 계층형 멀티모달 RAG RAPTOR AI
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RAPTOR‑AI는 재난 현장의 텍스트·이미지·역사 자료를 계층형 지식 트리로 구축하고, 엔트로피 기반 에이전트 제어와 LoRA 적응을 결합해 상황에 맞는 검색·생성 전략을 자동 선택한다. 46개 쓰나미 PDF(2 378페이지)를 대상으로 실험한 결과, 기존 방식 대비 검색 정밀도 23 %, 상황 정합도 31 %, 작업 분해 정확도 27 %가 향상되었으며, 3 000개 청크까지 확장 가능함을 보여준다.

상세 분석

본 논문은 인도주의 지원·재난 구호(HADR) 현장에서 요구되는 ‘다중모달·동적·경험 기반’ 의사결정 지원을 목표로 RAPTOR‑AI라는 새로운 RAG 프레임워크를 제시한다. 첫 번째 핵심은 계층형 멀티모달 지식 구축이다. 저자들은 46개의 쓰나미 관련 PDF(총 2 378페이지)를 대상으로 OCR 기반 텍스트 추출과 150 DPI 이미지 추출을 동시에 수행한다. 텍스트는 800 토큰 윈도우와 150 토큰 오버랩을 적용해 의미 단위별 청크로 나누고, 이미지에는 BLIP 모델을 이용해 캡션 생성 및 시각 특징 추출을 수행한다. 이후 텍스트 임베딩은 mixedbread‑ai/mxbai‑emb‑large‑v1(1024‑차원), 이미지 임베딩은 BLIP(768‑차원)을 1024‑차원으로 변환한 뒤 가중치 α = 0.7을 적용해 융합 임베딩을 만든다.

두 번째 핵심은 엔트로피‑인식 에이전트 제어이다. 질의 q와 상황 정보 I에 대해 4가지 시맨틱 클래스(사실, 절차, 분석, 종합)에 대한 확률 분포를 추정하고 엔트로피 H(q,I)를 계산한다. H가 0.3 미만이면 저비용의 DirectSearch, 0.3~0.7 사이이면 계층적 트리 탐색(HierarchicalTraversal), 0.7 이상이면 멀티모달 융합(MultimodalFusion)을 선택한다. 이러한 임계값은 재난 도메인 질의 집합에 대한 실험을 통해 경험적으로 도출되었다. 또한 전략별 성과를 지수 이동 평균(β = 0.9)으로 업데이트해 실시간 피드백 기반 적응을 가능하게 한다.

세 번째 핵심은 LoRA 기반 경험 지식 통합이다. 기존 LLM을 전체 파인튜닝하는 대신, 재난 현장의 교훈(예: 2011년 도호쿠 지진)과 전문가 매뉴얼을 저차원( r = 16) 매트릭스로 학습시켜 모델 파라미터를 거의 변경하지 않으면서도 도메인 특화 지식을 주입한다. 이렇게 하면 비전문가 사용자도 상황에 맞는 조언을 얻을 수 있다.

실험에서는 3 000개 청크까지 확장 가능한 계층형 클러스터링(실루엣·DBI 최적화)과 GPT‑OSS‑20b를 이용한 18개의 중간 요약, 최상위 요약을 생성했다. 평가 지표는 검색 정밀도, 상황 정합도, 작업 분해 정확도이며, 각각 기존 RAG 대비 23 %, 31 %, 27 %의 개선을 기록했다. 특히 고엔트로피 질의에서 멀티모달 융합이 크게 기여했으며, 저엔트로피 질의에서는 DirectSearch가 응답 시간을 40 % 단축했다.

전체적으로 RAPTOR‑AI는 다중모달 데이터의 통합, 상황 인식 기반 전략 선택, 경량화된 경험 학습이라는 세 축을 결합해 재난 대응 OODA 루프 전 단계에 걸쳐 실시간·정확한 의사결정 지원을 제공한다는 점에서 기존 정적 RAG 시스템을 뛰어넘는 혁신적 접근이라고 평가할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기