하나의 VLM으로 다국어 문서 레이아웃 파싱 혁신
초록
dots.ocr는 레이아웃 검출·텍스트 인식·관계 이해라는 세 핵심 작업을 하나의 비전‑언어 모델(VLM)에서 end‑to‑end로 학습한다. 대규모 다국어 합성 데이터 엔진을 통해 126개 언어를 포괄하는 XDocParse 벤치마크를 새롭게 제시하고, OmniDocBench에서 기존 최고 수준을 크게 앞선 성능을 기록한다.
상세 분석
본 논문은 문서 레이아웃 파싱을 “통합된 자동 회귀 생성” 문제로 재정의하고, 이를 해결하기 위한 전용 VLM 구조와 데이터 파이프라인을 제시한다. 모델 아키텍처는 1.2 B 파라미터 비전 인코더(VE)와 1.7 B 파라미터 언어 디코더(LM)로 구성되며, VE는 고해상도(최대 11 M 픽셀) 입력을 직접 처리하도록 설계돼 텍스트와 레이아웃 정보를 동시에 학습한다. 디코더는 Qwen2.5‑1.5 B 기반에 단어 임베딩을 공유하는 등 경량화된 변형을 적용해 복잡한 관계 추론을 지원한다.
데이터 측면에서 저자는 세 단계의 합성 엔진을 구축한다. 1단계에서는 72 B 규모의 교사 VLM(Qwen2.5‑VL‑72B)을 이용해 라벨링된 영문 문서를 목표 언어로 구조를 보존하면서 번역·재렌더링하고, 이를 학생 모델(Qwen2.5‑VL‑7B)로 distill해 대량 자동 라벨링 엔진을 만든다. 2단계에서는 레이아웃 복잡도, 언어 희소성, 도메인 다양성을 기준으로 층화 샘플링을 수행해 수백만 장의 PDF를 자동 라벨링, 고품질 다국어 사전학습 코퍼스를 생성한다. 3단계는 인간‑인‑루프(HITL) 교정으로, 초기 모델이 만든 예측을 VLM 오라클이 자동 진단하고, 오류가 확인된 15 k 샘플을 인간이 정교히 수정해 최종 파인튜닝 데이터로 활용한다.
실험 결과, dots.ocr는 OmniDocBench에서 영어 0.125, 중국어 0.160의 OverallEdit 점수로 기존 최고 모델을 각각 710%p 상회한다. 또한 새로 제안한 XDocParse(126개 언어)에서도 평균 +7.4 p의 절대 향상을 보이며, 다국어 전반에 걸친 강건성을 입증한다. Ablation 연구는 (1) 통합 학습이 파이프라인 대비 레이아웃 정확도와 텍스트 인식 F1을 각각 2.3%·1.8% 개선하고, (2) 데이터 엔진의 단계별 기여가 전체 성능에 46%p 영향을 미침을 보여준다.
이러한 설계는 (i) 오류 전파를 근본적으로 차단하고, (ii) 레이아웃·텍스트·관계 간 상호작용을 모델이 직접 학습하도록 함으로써 파라미터 효율성을 높이며, (iii) 대규모 다국어 합성 데이터가 기존 라벨링 비용을 크게 낮추어 실제 산업 현장에 적용 가능한 스케일을 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기