프랑스어 PDF를 마크다운으로 변환하는 비전‑언어 모델 벤치마크

프랑스어 PDF를 마크다운으로 변환하는 비전‑언어 모델 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 프랑스어 PDF 문서의 복잡한 레이아웃과 손글씨를 대상으로 최신 비전‑언어 모델(VLM) 15종을 평가한다. 모델 불일치 기반 샘플링으로 선정된 60 000문서 중 어려운 페이지를 모아 새로운 벤치마크를 구축하고, 텍스트 존재·읽기 순서·표 구조를 검증하는 단위 테스트 방식과 카테고리별 정규화를 도입해 형식 차이에 의한 과벌점을 최소화한다. 실험 결과, 상용 모델이 손글씨와 양식에서 우수한 반면, 일부 오픈‑소스 모델도 인쇄된 레이아웃에서는 경쟁력을 보였다.

상세 분석

이 연구는 PDF‑to‑Markdown 변환이라는 구체적 작업에 초점을 맞추어, 기존 OCR·문서 이해 벤치마크가 갖는 몇 가지 한계를 체계적으로 보완한다. 첫째, 평가 대상이 프랑스어라는 언어적 특수성을 갖고 있음에도 불구하고, 기존 데이터셋은 영어·중국어 중심이었으며, 프랑스어 특유의 억양 부호와 레이아웃 변형을 충분히 반영하지 못한다. 논문은 60 000개의 프랑스어 문서(주로 CCPDF와 Gallica)에서 두 개의 VLM(dots‑ocr, mineru2.5)으로 추출한 텍스트 간 편집 거리를 불일치 지표로 활용해, 모델이 가장 크게 의견 차이를 보인 페이지를 ‘난이도 높음’으로 선정한다. 이 방식은 무작위 샘플링보다 실제 시스템이 취약한 케이스를 집중적으로 포함한다는 점에서 실용적이다.

두 번째로, 평가 메트릭으로 전통적인 문자 오류율(CER)이나 전체 문자열 레벤슈타인 거리를 사용하지 않고, 단위 테스트(unit‑test) 기반 접근을 채택한다. 텍스트 존재 테스트(TextPresenceTest), 읽기 순서 테스트(TextOrderTest), 표 구조 테스트(TableTest) 등 구체적인 실패 모드를 정의하고, 각 테스트마다 카테고리 특화 정규화 파이프라인을 적용한다. 정규화 단계는 마크다운/HTML 정리, 유니코드 정규화, 선택적 ASCII 변환, 알파벳/숫자 필터링, 레이아웃 무시 공백 제어 등을 포함한다. 이를 통해 불필요한 형식 차이(줄바꿈, 강조 마크, 괄호 등)로 인한 오탐을 크게 감소시키면서, 실제 내용 누락·오인식·순서 오류 등 실무에 중요한 오류만을 포착한다.

세 번째로, 실험 인프라와 파이프라인이 상세히 기술된다. vlmparse 라이브러리를 이용해 모든 모델을 동일한 인터페이스와 비동기 처리 환경에서 실행했으며, A100 GPU 1대(80 GB)와 32 스레드 병렬 처리, 500 초 타임아웃을 적용했다. 이는 모델 간 추론 속도와 정확도를 공정하게 비교할 수 있게 한다. 평가 결과는 전체 평균 패스율과 카테고리별 평균 점수로 제시된다. Gemini 3 Pro Preview가 0.76의 최고 점수를 기록했으며, 이어 Gemini 3 Flash Preview(0.74), Chandra(0.66) 순이다. 특히 손글씨와 양식 영역에서 Gemini 시리즈가 0.60~0.72 수준의 점수를 유지한 반면, 대부분 오픈‑소스 모델은 0.10 이하로 급락한다. 반면 다중 컬럼 텍스트와 표 영역에서는 여러 오픈‑소스 모델도 0.80 이상을 달성해 인쇄된 레이아웃 처리 능력이 충분함을 보여준다.

마지막으로, 처리량(초/페이지)과 DPI 민감도 분석이 포함된다. 모델 크기와 비전 인코더 복잡도에 따라 추론 속도가 크게 달라지며, Chandra는 4.3 s/페이지로 가장 느리지만 정확도가 높다. 반면 Granite‑Docling과 MinerU2.5는 0.9 s/페이지 이하로 빠르다. DPI 실험에서는 100 DPI 이하에서 속도가 감소하고, 높은 DPI에서는 이미지 가독성이 향상돼 안정적인 출력이 얻어진다. 이러한 분석은 실무에서 정확도와 처리량 사이의 트레이드오프를 판단하는 데 유용한 지표를 제공한다.

전반적으로 이 논문은 프랑스어 문서 특화 벤치마크를 제시하고, 형식 차이를 최소화한 단위 테스트 기반 평가 방식을 도입함으로써 VLM의 실제 활용 가능성을 보다 현실적으로 측정한다는 점에서 의미가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기