다국어 문서 파싱을 위한 실전 벤치마크 MDPBench 발표
MDPBench은 17개 언어·3400장의 디지털·사진 문서를 포함한 최초의 다국어 문서 파싱 벤치마크이다. 디지털·사진 조건, 라틴·비라틴 스크립트별 성능 차이를 정량화하고, 공개·비공개 평가 셋을 구분해 데이터 누수를 방지한다. 평가 결과, 폐쇄형 모델(Gemini‑3‑Pro)은 비교적 견고하지만, 오픈소스 모델은 사진 문서와 비라틴 스크립트에서 평균 17.8%·14.0%씩 크게 성능이 떨어진다.
저자: Zhang Li, Zhibo Lin, Qiang Liu
본 논문은 다국어·다양한 촬영 환경을 포괄하는 최초의 문서 파싱 벤치마크인 MDPBench을 제안한다. 연구 배경으로 기존 OCR·문서 파싱 연구가 주로 깨끗한 디지털 PDF와 영어·중국어 등 소수 언어에 집중했으며, 실제 현장에서는 사진으로 촬영된 문서, 다양한 스크립트, 물리적 변형 등이 빈번히 발생한다는 점을 지적한다. 이를 해결하기 위해 저자들은 17개 언어(영어, 독일어, 프랑스어, 스페인어, 러시아어, 아라비아어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 네덜란드어, 포르투갈어, 태국어, 베트남어, 간체·번체 중국어)를 포함한 3,400장의 문서 이미지를 수집하였다.
데이터 수집 단계에서는 공개 웹·학술·비즈니스·교육·역사 자료를 체계적으로 크롤링하고, 디지털 원본 850장을 확보한다. 이후 각 원본을 인쇄하거나 화면에 띄워 실제 카메라로 촬영해 사진 문서를 생성했으며, 촬영 환경은 실내·실외, 조명·그림자·플래시·흐림·물리적 변형(구부림·주름·크랙)·배경 변동 등을 포함하도록 설계했다. 이렇게 구성된 사진 문서는 2,550장으로, 전체 데이터의 75%를 차지한다.
주석 생성 파이프라인은 네 단계로 이루어진다. 첫 단계에서는 레이아웃 검출, 블록 분류, 텍스트·수식·표·이미지 인식을 담당하는 여러 전문가 모델을 자동 라벨링한다. 두 번째 단계에서는 라벨링된 결과를 인간 라벨러가 교정하고, 세 번째 단계에서 별도 검증 라벨러가 교정 품질을 검증한다. 마지막으로 레벤슈타인 거리와 트리 편집 거리 기반의 점수를 산출해 0.7 이상 합의가 있으면 최종 주석으로 확정한다. 이 과정은 높은 정확도와 일관성을 보장한다.
데이터는 공개 평가 셋(2,720장)과 비공개 평가 셋(680장)으로 나뉘어, 연구자는 공개 셋으로 모델을 개발·튜닝하고, 비공개 셋을 통해 최종 성능을 검증한다. 이는 데이터 누수와 과적합을 방지하는 실전 평가 프로토콜을 제공한다.
평가에서는 30여 종의 모델을 시험했으며, 크게 세 범주로 구분한다. (1) 일반 비전‑언어 모델: Gemini‑3‑Pro‑preview, kimi‑K2.5, Doubao‑2.0‑pro, Claude‑Sonnet 등; (2) 특화 VLM: dots.mocr, PaddleOCR‑VL‑1.5, olmOCR2, HunyuanOCR 등; (3) 전통 파이프라인: PP‑Structure V3, MinerU‑2.5‑pipeline 등. 평가 지표는 전체 정확도, 라틴·비라틴 별 정확도, 디지털·사진 별 정확도, 그리고 레이아웃·텍스트·수식·표·이미지 6가지 속성별 F1 점수이다.
주요 결과는 다음과 같다. 전체 평균 정확도에서 Gemini‑3‑Pro‑preview가 86.4%로 최고였으며, 오픈소스 최고 모델인 dots.mocr가 80.5%에 그쳤다. 사진 문서에서는 모든 모델이 평균 17.8%p 정확도 감소를 보였으며, 특히 전통 파이프라인은 25% 이상 급락했다. 비라틴 스크립트(아라비아·히인디·태국·베트남·중‑번체 등)에서는 평균 14.0%p 정확도 차이가 발생, 라틴 언어 대비 인식 오류가 현저히 늘었다. 레이아웃 검출은 비교적 안정적이었지만, 텍스트·수식 인식에서 비라틴·사진 조건이 가장 큰 약점으로 드러났다.
논의에서는 현재 문서 파싱 기술이 ‘깨끗한 디지털 PDF’에 최적화돼 있음을 지적하고, 비라틴 문자 체계는 복합적인 결합 규칙과 폰트 다양성으로 기존 OCR 엔진이 일반화에 실패한다는 점을 강조한다. 사진 촬영 시 발생하는 왜곡·조명·배경 변동은 레이아웃·텍스트 정합성을 크게 저해한다. 따라서 향후 연구 방향으로 (① 다중 스크립트에 대한 대규모 사전 학습 데이터 확대, ② 사진 왜곡에 강인한 시각 변환 및 데이터 증강 기법, ③ 레이아웃·텍스트·수식·표를 통합적으로 다루는 엔드‑투‑엔드 VLM 설계, ④ 비공개 평가 셋을 활용한 실전 테스트 프로토콜 표준화) 등을 제시한다. 또한, MDPBench 자체가 오픈소스로 제공돼 연구 커뮤니티가 다양한 언어·조건에 대한 파싱 모델을 개발하고, 실제 산업·문화 현장에 바로 적용 가능한 시스템을 구축하는 기반이 될 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기