테이블 이미지 검색과 이해를 위한 멀티모달 대형 언어 모델
초록
본 논문은 대규모 테이블 이미지 컬렉션에서 사용자의 텍스트 질의에 맞는 테이블을 자동으로 찾아내고, 멀티모달 대형 언어 모델(MLLM)로 정교히 재순위화한 뒤 답변을 생성하는 TabRAG 프레임워크를 제안한다. 시각‑텍스트 쌍을 공동 학습한 바이-인코더 기반 검색기와 MLLM 기반 교차 인코더 재순위·생성 모듈을 결합해, 기존 방법 대비 검색 재현율 7.0%·정답 정확도 6.1% 향상을 달성하였다.
상세 분석
TabRAG은 “검색‑재순위‑생성” 3단계 파이프라인으로 구성된다. 첫 단계에서는 시각 인코더 hα와 텍스트 인코더 gβ를 공동 미세조정해 이미지와 질의 사이의 임베딩을 동일 공간에 매핑한다. 대규모 테이블 이미지 집합 S에 대해 hα(xi) 를 사전 계산하고, FAISS 기반 근사 최근접 검색으로 질의 임베딩 gβ(q) 와 코사인 유사도가 높은 상위 n개의 후보 테이블을 빠르게 추출한다. 이때 사용된 대비 학습 손실은 배치 내 모든 쌍을 정규화하는 소프트맥스 형태의 대조 손실로, 양성 쌍(질의‑정답 테이블)의 유사도를 극대화하고 음성 쌍을 억제한다.
두 번째 단계인 재순위에서는 멀티모달 LLM fθ 를 교차 인코더로 활용한다. 질의와 각 후보 이미지 x를 “질의와 이미지가 관련 있는가?”라는 이진 프롬프트에 결합해 입력하고, 모델이 출력하는 ‘True’ 토큰 확률을 기준으로 정렬한다. 이 과정은 단순 벡터 유사도만으로는 구분하기 어려운 미세한 시각‑텍스트 연관성을 포착한다. 논문은 재순위 학습을 위해 긍정 쌍(질의‑정답 테이블)과 하드 네거티브(상위‑재검색 후보 중 무관한 테이블)를 혼합해 이진 분류 손실을 최적화한다.
마지막 생성 단계에서는 재순위된 상위 k 개의 테이블 이미지를 모두 질의와 함께 LLM에 입력한다. 프롬프트는 “질의와 이미지들을 참고해 답을 JSON 형태로 출력하라”는 형식으로 구성되어, 모델이 다중 이미지 컨텍스트를 동시에 고려해 일관된 답변을 생성하도록 유도한다. 여기서는 기존의 텍스트‑전용 LLM이 이미지 정보를 직접 다루지 못하는 문제를 해결하기 위해, 이미지 임베딩을 텍스트 토큰 시퀀스로 변환한 뒤 LLM에 전달한다.
실험은 8개 도메인(재무, 의료 등)에서 48,504개의 고유 테이블 이미지와 98,000여 개의 질의·답변 쌍으로 구성된 신규 데이터셋을 구축해 수행되었다. 평가 지표는 검색 단계의 Recall@k, 재순위 단계의 정확도, 최종 QA 단계의 Exact Match와 F1 점수다. TabRAG은 기존 텍스트‑기반 검색(예: BM25)과 최신 멀티모달 검색 모델 대비 각각 7.0%·6.1%의 절대 향상을 보였으며, 특히 복합 셀 병합·색상 강조 등 시각적 구조가 중요한 테이블에서 큰 성능 차이를 나타냈다.
핵심 기여는 (1) 테이블 이미지를 직접 다루는 바이‑인코더 검색기 설계, (2) MLLM을 이용한 미세 재순위와 다중 이미지 기반 생성 통합, (3) 실제 정보 검색 시나리오에 맞춘 대규모 멀티모달 테이블 QA 데이터셋 구축이다. 이 접근은 OCR 의존성을 없애고, 시각적 레이아웃 정보를 보존함으로써 기존 텍스트‑중심 파이프라인이 놓치는 정보를 회복한다는 점에서 의미가 크다. 또한, 재순위 단계에서 MLLM을 활용함으로써 “시각‑언어 연관성 판단”이라는 새로운 역할을 부여했으며, 이는 향후 멀티모달 검색 시스템 전반에 적용 가능한 일반화된 설계 패턴으로 볼 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기