세미구조 테이블 질문답변을 위한 ST Raptor 시스템
초록
ST‑Raptor는 시각적 편집, 계층형 정규 트리(HO‑Tree) 모델링, 그리고 에이전트 기반 질의 분해·검증을 결합한 인터랙티브 시스템으로, 복잡한 병합 셀·다중 레벨 헤더·중첩 구조를 가진 세미구조 테이블에 대해 높은 정확도와 사용성을 제공한다.
상세 분석
본 논문은 세미구조 테이블 QA가 기존 Text‑to‑SQL 방식에서 구조 변환 시 발생하는 정보 손실과, Text‑to‑Code·멀티모달 LLM이 복잡한 레이아웃을 제대로 파악하지 못하는 문제를 지적한다. 이를 해결하기 위해 제안된 ST‑Raptor는 크게 네 가지 핵심 기술을 결합한다. 첫째, 원본 테이블을 고해상도 이미지로 렌더링하고 VLM(Vision‑Language Model)으로 메타 셀(헤더·라벨 등)을 탐지한 뒤, 임베딩 기반 유사도 매칭을 통해 셀‑메타 매핑을 정교화한다. 둘째, 탐지된 메타 정보를 기반으로 레이아웃 원칙(상위 헤더 식별, 병합 영역 인식 등)을 적용해 계층형 정규 트리(Hierarchical Orthogonal Tree, HO‑Tree)를 재귀적으로 구축한다. HO‑Tree는 헤더·내용·병합 영역을 정점으로 삼고, 부모‑자식 관계를 통해 다중 레벨 헤더와 중첩 구조를 보존한다. 셋째, HO‑Tree 위에 정의된 9가지 기본 트리 연산을 이용해 질의를 서브‑오퍼레이션으로 자동 분해한다. 여기에는 서브트리 검색, 집계, 필터링 등이 포함되며, 컬럼 타입(수치·범주·자유 텍스트) 태깅을 통해 연산 선택을 가이드한다. 넷째, 두 단계 검증 메커니즘을 도입한다. 전방 검증은 연산 흐름과 제약 조건을 체크해 논리적 오류를 사전에 차단하고, 후방 검증은 질문을 재구성해 답변 일관성을 확인한다. 또한, 에이전트 모듈은 다중 턴 대화에서 이전 컨텍스트를 기억하고, 이미지·텍스트·표 간 라우팅을 담당한다. 시스템은 웹 기반 UI에 트리 에디터를 제공해 사용자가 HO‑Tree를 시각적으로 편집·재구성할 수 있게 함으로써 모델 오류를 인간이 직접 교정하도록 설계되었다. 실험에서는 SSTQA와 WikiTQ‑ST 두 벤치마크에서 기존 최첨단 모델 대비 11.2%p 이상의 정확도 향상을 기록했으며, 특히 복잡한 병합·중첩 셀을 포함한 실제 보고서 데이터에서도 높은 신뢰성을 보였다. 전체 파이프라인은 “시각‑텍스트‑구조‑논리‑검증”의 순환 구조를 이루어, 레이아웃 손실을 최소화하고 인간‑AI 협업을 통한 오류 복구가 가능하도록 만든 점이 가장 큰 혁신이다.
댓글 및 학술 토론
Loading comments...
의견 남기기