인간 중심 구조 문서 지도 DMAP: 멀티모달 문서 이해 혁신
초록
**
DMAP은 문서의 계층적 구조와 시각‑텍스트 연관성을 명시적으로 모델링한 인간‑정렬형 문서 지도이다. Structured‑Semantic Understanding Agent가 텍스트, 그림, 표, 차트 등을 계층적으로 정리하고, Reflective Reasoning Agent가 이 지도 위에서 증거 충분성을 판단하며 반복적으로 답변을 다듬는다. MMDocQA 벤치마크에서 기존 RAG 기반 시스템보다 검색 정확도·추론 일관성이 크게 향상되었다.
**
상세 분석
**
본 논문은 멀티모달 문서 QA에서 가장 근본적인 한계인 “플랫한 청크 인덱싱”을 비판하고, 인간이 문서를 해석할 때 자연스럽게 활용하는 섹션·페이지·요소 간의 계층·관계 정보를 복원·활용하는 새로운 프레임워크를 제시한다. 핵심은 두 단계 에이전트이다. 첫 번째 Structured‑Semantic Understanding Agent(SSU A)는 문서를 페이지 단위로 분해하고, 각 페이지에서 텍스트 블록, 그림, 표, 차트 등 모든 시각‑텍스트 요소를 추출한다. 추출된 요소는 사전 학습된 텍스트 인코더와 비전 인코더를 통해 각각 v_T와 v_V라는 다중모달 임베딩으로 변환된다. 이후 페이지‑요소 집합을
두 번째 에이전트인 Reflective Reasoning Agent(RRA)는 질문 q와 DMAP M을 입력받아 답변 A를 생성한다. RRA는 초기에는 전통적인 RAG와 유사하게 질의와 가장 유사한 청크를 DMAP에서 검색한다. 그러나 여기서 멈추지 않고, 검색된 증거가 질문을 충분히 설명하는지 자체 검증 메커니즘을 실행한다. 검증 결과가 불충분하면, RRA는 “증거 부족” 신호를 기반으로 DMAP 내에서 추가적인 섹션·페이지·요소를 탐색하도록 재질의 질의를 생성한다(예: “Section 2.3의 표 3을 확인해 주세요”). 이렇게 반복적인 “검색‑검증‑재검색” 루프를 통해 답변의 근거를 점진적으로 보강한다. 이 과정은 인간이 문서를 읽으며 필요한 정보를 찾아가는 인지 과정을 모방한다는 점에서 의미가 크다.
실험에서는 MMDocQA라는 멀티모달 문서 QA 벤치마크(다양한 학술 논문·보고서·특허 등)에서 DMAP 기반 시스템을 기존 RAG(플랫 청크)와 비교하였다. 주요 평가지표는 정확도(Exact Match), F1, 그리고 구조 일관성 점수이다. DMAP은 평균 정확도 8.7%p, F1 7.4%p 상승을 기록했으며, 특히 “표‑참조”와 “그림‑캡션”이 포함된 질문에서 성능 격차가 크게 나타났다. 또한, RRA의 반복적 검증 메커니즘이 증거 충분성을 92% 수준으로 유지하게 하여, 비정형 답변에서의 오류를 현저히 감소시켰다.
한계점으로는 (1) 현재 SSU A가 섹션 경계와 페이지 번호를 추출하기 위해 전통적인 OCR·레이아웃 분석 파이프라인에 의존한다는 점, (2) 대규모 문서(수천 페이지)에서는 DMAP 그래프가 메모리·연산 비용을 크게 증가시킬 수 있다는 점, (3) RRA가 증거 충분성을 판단할 때 사용되는 휴리스틱이 도메인에 따라 민감하게 변할 수 있다는 점을 언급한다. 향후 연구에서는 (i) 트랜스포머 기반 레이아웃 인코더로 섹션·페이지 자동 추출 정확도를 높이고, (ii) 그래프 압축·샘플링 기법을 도입해 초대형 문서에서도 효율적인 DMAP 관리가 가능하도록 하며, (iii) 메타‑리인포스먼트 학습을 통해 RRA의 검증 정책을 데이터‑주도적으로 최적화하는 방향을 제시한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기