문서 레이아웃 순서 복원을 위한 XY컷 플러스와 DocBench100

문서 레이아웃 순서 복원을 위한 XY컷 플러스와 DocBench100
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

XY‑Cut++는 사전 마스크, 다중‑Granularity 분할, 경량 크로스모달 매칭을 결합해 복잡한 다중 컬럼·L‑shape 레이아웃의 읽기 순서를 정확히 복원한다. 새롭게 만든 DocBench‑100 벤치마크(복잡 30·일반 70 페이지)에서 BLEU‑4 98.8 %를 달성했으며, 기존 XY‑Cut 대비 24 % 향상, 실시간 처리 속도도 유지한다.

상세 분석

본 논문은 문서 이미지 이해에서 가장 기본이면서도 실용적인 과제인 ‘읽기 순서 복원(Reading Order Recovery)’에 초점을 맞춘다. 기존 XY‑Cut 알고리즘은 수평·수직 투영을 기반으로 재귀적으로 영역을 나누는 기하학적 방법이지만, 다중 컬럼 신문, L‑shape 텍스트 블록, 페이지 간 연속 등 복잡한 레이아웃에서는 경계가 겹치거나 분할 기준이 잘못 설정돼 순서 오류가 발생한다. 저자들은 이러한 한계를 극복하기 위해 세 가지 핵심 혁신을 제안한다.

  1. Pre‑Mask 처리: PP‑DocLayout(시각적 특징과 얕은 의미 라벨)으로 추출한 ‘동적 요소(제목, 표, 그림 등)’를 이진 마스크로 일시적으로 제외한다. 이는 L‑shape 영역이 분할 단계에 방해가 되는 것을 방지하고, 핵심 텍스트 블록만을 대상으로 다중‑Granularity 분할을 수행하게 한다. 마스크 해제는 IoU‑가중 거리 기반 최근접 이웃 매칭으로 복원한다.

  2. 다중‑Granularity 분할: 세 단계로 구성된 하이브리드 파이프라인을 도입한다. 첫 단계에서는 전체 페이지의 평균 박스 길이를 이용해 적응형 임계값 Tₗ을 계산하고, 이를 초과하고 두 개 이상의 가로 투영이 겹치는 블록을 ‘크로스‑레이아웃’으로 식별한다. 두 번째 단계는 전통적인 XY‑Cut(Pre‑Cut)으로 초기 구역을 만든 뒤, 밀도‑드리븐 재귀 분할을 적용한다. 밀도 τ_d는 현재 영역 내 텍스트 박스 수와 면적 비율을 실시간으로 평가해 가로·세로 분할 축을 동적으로 선택한다. 이렇게 하면 텍스트가 밀집된 영역은 가로로, 빈 공간은 세로로 효율적으로 나뉘어 L‑shape 문제를 자연스럽게 해결한다.

  3. 경량 크로스모달 매칭: 마스크된 동적 요소를 재배치할 때는 텍스트 라벨(제목, 캡션 등)과 시각적 위치 정보를 최소한의 임베딩으로 결합한다. 복잡한 Transformer 기반 모델 대신, 라벨 우선순위와 IoU‑가중 거리만을 이용해 순서를 재조정함으로써 연산량을 크게 줄이면서도 의미적 일관성을 유지한다.

실험에서는 새로 만든 DocBench‑100(복잡 레이아웃 30 %, 일반 레이아웃 70 %)을 사용해 기존 XY‑Cut, 동적 프로그래밍 최적화, Mask‑based Normalization 등과 비교하였다. 결과는 BLEU‑4 점수에서 복잡 페이지 98.6 %, 일반 페이지 98.9 %를 기록했으며, 평균 24 %의 정확도 향상을 보였다. 또한 FPS(Frames Per Second) 기준으로 기존 기하학 전용 방법 대비 1.06배 빠른 처리 속도를 유지했다.

이 논문의 의의는 (1) 단순함과 효율성을 동시에 달성한 새로운 기하‑의미 융합 프레임워크, (2) 블록‑레벨 평가에 특화된 벤치마크인 DocBench‑100을 공개함으로써 향후 연구의 표준화에 기여, (3) 마스크‑리매핑 전략이 복잡 레이아웃에서 발생하는 L‑shape 오류를 근본적으로 해결한다는 점이다. 특히, 대규모 LLM 기반 RAG 파이프라인에서 전처리 단계로 활용될 경우 OCR‑후 텍스트 흐름을 정확히 재구성해 모델의 컨텍스트 이해도를 크게 높일 수 있다. 향후 연구에서는 마스크 단계에 더 정교한 의미 분류기(예: CLIP 기반)와, 페이지 간 연속성을 고려한 전역 그래프 최적화 기법을 결합하면 다중 페이지 문서에서도 동일한 성능을 기대할 수 있을 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기