테이블 이미지 이해를 위한 구조·내용 분리 정렬과 전역‑지역 가이드 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 비전‑언어 모델을 최소한의 라벨링과 외부 도구 없이 테이블 이미지 추론에 효율적으로 적용하기 위해, 구조와 내용을 분리하는 ‘DiSCo’ 정렬 프레임워크와 전역‑지역 단계로 테이블을 탐색·증거 추출·답변 생성하는 ‘Table‑GLS’ 추론 방식을 제안한다. 10 K 테이블 이미지만으로 21개 벤치마크에서 성능을 크게 향상시키며, 특히 보지 못한 테이블 레이아웃에 대한 일반화 능력이 뛰어나다.

상세 분석

본 연구는 LVLM(Large Vision‑Language Model)의 기존 한계—복잡한 테이블 레이아웃에서 구조와 내용이 얽혀 학습 효율이 떨어지고, 외부 OCR·툴에 의존하는 경우가 많다는 점—을 정확히 짚어낸다. 이를 해결하기 위해 두 가지 핵심 설계를 제시한다. 첫 번째는 ‘DiSCo(Disentangled Structure‑Content Alignment)’이다. 구조 정렬 단계에서는 셀 내용 전체를 플래이스홀더 토큰(tp)으로 대체한 텍스트(T_S)를 사용해, 모델이 순수히 레이아웃(행·열 구분, 헤더 계층, 셀 병합 등)만을 학습하도록 강제한다. 손실 함수 L_struct는 이미지와 구조 텍스트 사이의 조건부 확률을 최대화함으로써, 시각적 테이블 레이아웃을 독립적인 표현으로 추출한다. 두 번째는 내용 정렬 단계이다. 전역 내용 정렬(L_content_global)에서는 전체 테이블의 행·열 수와 각 행·열이 의미하는 요약을 생성하도록 유도해, 구조 좌표와 의미를 연결한다. 로컬 내용 정렬(L_content_local)에서는 특정 행·열 인덱스(m, n)를 입력받아 해당 셀의 텍스트를 정확히 기술하도록 훈련한다. 이처럼 구조와 내용을 별도 목표로 학습함으로써, 기존의 “구조+내용을 하나의 시퀀스로 학습”하는 방식보다 데이터 효율성이 크게 향상되고, 새로운 레이아웃에 대한 전이 학습이 용이해진다.

두 번째 핵심 기법인 ‘Table‑GLS(Global‑to‑Local Structure‑guided reasoning)’는 추론 시점에 구조‑내용 정렬된 모델을 활용한다. (I) 전역 구조 탐색 단계에서는 질문(q)과 이미지(V)를 입력으로, 모델이 “어떤 행·열이 질문에 핵심적인가”를 설명하는 텍스트(T_t)와 행·열 라벨 리스트(R, C)를 출력한다. 여기서 모델은 셀 단위 내용을 직접 보지 않고, 구조적 힌트만으로 탐색 결정을 내린다. (II) 자기 검증 기반 서브‑테이블 추출 단계에서는 이전 단계에서 제시된 R·C가 충분한지 스스로 평가하고, 필요 시 수정한다. 이후 최소한의 서브‑테이블(T_sub)을 반정형 텍스트 형태로 추출한다. 이 과정은 오류 전파를 억제하고, 증거 기반 추론을 위한 명확한 입력을 제공한다. (III) 증거 기반 추론 단계에서는 T_sub와 질문을 이용해 최종 답변을 생성한다. 전체 파이프라인은 추가 파인튜닝이나 외부 OCR·툴 없이 순수 LVLM만으로 수행되며, 연산 비용도 구조 정렬(≈10 K 이미지)과 추론 단계(전역·지역 탐색)만으로 충분히 가볍다.

실험에서는 21개의 테이블 이해·추론 벤치마크(표 인식, 셀 질의응답, 합계 계산, 복합 논리 추론 등)를 대상으로 DiSCo와 Table‑GLS를 순차 적용한 결과, 기존 SFT/ RL 기반 방법 대비 평균 3‑5%p의 정확도 향상을 기록했다. 특히 “Unseen Layout” 테스트에서는 구조 정렬 덕분에 7‑9%p의 큰 격차를 보이며, 레이아웃 변형에 강인함을 입증했다. 데이터 효율성 측면에서도 10 K 이미지(≈97 K 정렬 샘플, 20.6 K‑82 K 추론 샘플)만으로도 충분히 성능을 끌어올릴 수 있었으며, 이는 기존 수백만 이미지에 의존하는 방법에 비해 1‑2% 수준의 라벨링 비용만으로도 가능함을 의미한다.

요약하면, 이 논문은 (1) 구조와 내용을 명시적으로 분리해 LVLM이 테이블 레이아웃을 독립적으로 학습하도록 만든 DiSCo, (2) 전역‑지역 단계로 구조적 탐색·증거 추출·답변 생성을 수행해 외부 도구 없이도 견고한 추론을 가능케 하는 Table‑GLS라는 두 축의 혁신을 제시한다. 두 기법 모두 라벨링 비용을 크게 낮추면서도 일반화 성능을 강화해, 실제 문서 분석·비즈니스 인텔리전스 등 다양한 산업 현장에서 LVLM 기반 테이블 이해를 실용화하는 데 중요한 전환점을 제공한다.

테이블 이미지 이해를 위한 구조·내용 분리 정렬과 전역‑지역 가이드 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기