PDF 파서 표 추출 성능 평가: LLM 기반 의미 평가와 합성 벤치마크

본 논문은 PDF 문서에서 표를 추출하는 작업의 중요성을 강조하면서, 기존 평가 지표가 구조적 일치와 문자열 일치에만 초점을 맞추어 의미적 동등성을 충분히 반영하지 못한다는 한계를 지적한다. 이를 극복하기 위해 두 가지 주요 기여를 제시한다. 첫 번째는 실제 arXiv 논문에서 추출한 표를 활용해 LaTeX 소스와 정확히 일치하는 합성 PDF 데이터를 자동으로 생성하는 벤치마크 프레임워크이다. 표는 복잡도에 따라 ‘단순’, ‘중간’, ‘복합’으로 라벨링되며, 페이지 레이아웃, 폰트, 컬럼 배치, 마진 등 다양한 요소를 무작위로 조합해 100개의 문서(총 451개 표)를 만든다. 이 과정에서 LaTeX 컴파일 오류를 사전에 차단하고, 표를 고정된 위치에 배치해 정답과 파싱 결과 간 매핑을 용이하게 한다. 두 번째 기여는 LLM‑as‑a‑judge 패러다임을 적용해 표 추출 품질을 의미적으로 평가하는 방법이다. Gemini‑3‑Flash‑Preview, DeepSeek‑v3.2, GPT‑5‑mini, Claude Opus 4.6 등 네 가지 최신 LLM을 시험했으며, 각 모델에 정답 표와 파싱 결과를 입력해 0~10 점 척도로 내용 정확도와 구조 보존 여부를 평가하도록 설계했다. LLM이 반환한 점수는 기존 TEDS와 GriTS와 같은 구조·문자 기반 지표와 비교해 인간 평가와의 상관관계가 현저히 높았다. 구체적으로, LLM 기반 평가는 인간 점수와 Pearson r=0.93, Spearman r=0.91, Kendall τ=0.78을 기록했으며, 반면 TEDS는 r=0.68, GriTS는 r=0.70에 그쳤다. 인간 평가를 위해 518개의 표 쌍을 0~10 점으로 채점했으며, 세 명의 평가자가 각각 모든 쌍을 평가해 Krippendorff α=0.77, 평균 Pearson r=0.85의 높은 일관성을 보였다. 인간 평가의 상한선은 leave‑one‑out 방식으로 r=0.89를 기록했다. LLM 기반 평가는 이 인간 상한선에 근접하면서도, 구조적 차이(예: 셀 병합 방식, 헤더 평탄화)와 무관하게 실제 의미 보존 여부를 정확히 판단한다는 점에서 의미적 평가의 필요성을 입증한다. 표 매칭 파이프라인은 파서가 출력하는 다양한 형식(HTML, Markdown, LaTeX, 평문)을 LLM에게 제공해 정답 표와 대응되는 파싱 결과를 자동 추출한다. 이후 규칙 기반 후처리 단계에서 미세 조정을 수행해 매칭 정확도를 높였다. 이 매칭이 정확해야 의미 평가가 신뢰성을 갖는다. 21개의 최신 PDF 파서를 100개의 합성 문서에 적용해 성능을 비교했다. 파서별 평균 점수는 0.45에서 0.78 사이였으며, 특히 복합 구조와 셀 병합을 잘 처리하는 파서가 높은 점수를 받았다. 반면 전통적인 규칙 기반 파서는 의미적 오류(예: 소수점 누락, 부호 반전)를 놓치는 경우가 많아 점수가 낮았다. 이러한 결과는 실무에서 파서 선택 시 의미 기반 평가가 필수적임을 시사한다. 마지막으로, 논문은 코드와 데이터셋을 GitHub에 공개하고, 21개 파서의 성능을 실시간으로 확인할 수 있는 리더보드를 운영한다. 이를 통해 연구자와 개발자가 손쉽게 재현·확장할 수 있는 환경을 제공한다. 전체 프레임워크는 PDF 파서 개발, 대규모 과학 데이터 마이닝, 자동화된 지식베이스 구축 등 다양한 응용 분야에 적용 가능하며, 향후 LLM의 지속적인 발전과 함께 의미 기반 평가가 표 추출 분야의 표준이 될 가능성을 제시한다.

PDF 파서 표 추출 성능 평가: LLM 기반 의미 평가와 합성 벤치마크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기