레이아웃 인식 텍스트 편집으로 PDF‑마크다운 변환 효율 극대화
초록
본 논문은 PDF 문서의 레이아웃 정보를 활용해 복사 가능한 텍스트와 편집이 필요한 영역을 사전에 구분하고, 이를 편집‑생성 파이프라인(EditTrans)으로 연결한다. 경량 분류기를 162 127 페이지의 arXiv 데이터에 fine‑tune하여 편집 큐를 구성하고, 기존의 엔드‑투‑엔드 디코더 모델(Nougat, Kosmos‑2.5, OlmOCR)과 결합해 Fill‑in‑the‑Middle 기법으로 필요한 부분만 생성한다. 실험 결과, 변환 지연 시간이 최대 44.5 % 감소하면서도 마크다운 품질은 유지됨을 보였다.
상세 분석
EditTrans는 기존 PDF‑to‑Markdown 변환 모델이 텍스트를 토큰 단위로 처음부터 전부 생성하는 비효율성을 근본적으로 해결한다는 점에서 의미가 크다. 핵심 아이디어는 “복사 가능한 텍스트는 그대로 복사하고, 복잡한 수식·표·제목 등은 모델에게 생성하도록 맡긴다”는 편집‑생성 혼합 전략이다. 이를 위해 저자들은 문서 레이아웃 분석(DLA) 모델인 ERNIE‑Layout을 기반으로 3가지 라벨(KEEP, DELETE, INSERT_LEFT)로 스팬을 분류하는 경량 분류기를 구축하였다. 162 127 페이지(≈2 천만 스팬)의 arXiv 데이터로 LoRA 방식을 이용해 fine‑tune함으로써, 레이아웃 정보(좌표, 폰트, 크기 등)와 텍스트 내용이 편집 가능성 판단에 효과적으로 결합되었다는 점이 주목할 만하다.
편집 큐 구축 단계에서는 스팬 길이가 짧은 경우(5자 이하) 모델이 직접 생성하도록 하여, 지나치게 짧은 복사 토큰이 생성 흐름을 방해하는 현상을 방지한다. 또한, “편집 트리거” 마크를 삽입해 PDF‑to‑Markdown 백본 모델에게 언제 생성 시작·종료를 알려주는 설계는 FIM(Fill‑in‑the‑Middle) 방식과 자연스럽게 맞물려, 앞·뒤 컨텍스트를 동시에 활용한 삽입 작업을 가능하게 한다.
실험에서는 Nougat‑base(349 M), Kosmos‑2.5(1.37 B), OlmOCR‑7B(8.29 B) 등 세 가지 최신 모델을 백본으로 사용했으며, EditTrans를 적용했을 때 평균 지연이 44.5 %까지 감소했다. 품질 측면에서는 BLEU·ROUGE·Exact Match 등 기존 메트릭에서 큰 손실이 없었으며, 특히 수식·표와 같은 비복사 영역에서 정확도가 유지된 점이 긍정적이다.
하지만 몇 가지 한계도 존재한다. 첫째, 레이아웃 분류기의 오류가 편집 큐에 직접 전이되어, 잘못된 DELETE 혹은 INSERT가 발생할 경우 최종 마크다운에 누락·오류가 생길 수 있다. 저자들은 이를 완화하기 위해 “스팬 매칭 기반 스킵 로직”(n=3, n′=5)을 도입했지만, 실제 오류율과 그 영향에 대한 정량적 분석이 부족하다. 둘째, PDF 텍스트 추출 단계에서 PyMuPDF를 사용했는데, 복잡한 폰트·인코딩이 섞인 PDF에서는 추출 정확도가 떨어질 가능성이 있다. 셋째, 실험 데이터가 arXiv 논문에 국한되어 있어, 교과서·특허·법률 문서 등 레이아웃이 크게 다른 도메인에 대한 일반화 성능은 검증되지 않았다. 마지막으로, 지연 감소율은 백본 모델의 크기와 구조에 따라 달라질 수 있는데, 대규모 멀티모달 모델(예: Gemini‑VL)과의 비교가 없다는 점도 아쉽다.
전반적으로 EditTrans는 “복사‑생성” 병행을 통해 PDF‑to‑Markdown 파이프라인의 효율성을 크게 향상시킨 실용적인 접근법이며, 레이아웃 인식과 텍스트 편집을 결합한 새로운 연구 방향을 제시한다. 향후 레이아웃 분류기의 정확도 향상, 다양한 도메인 적용, 그리고 대규모 멀티모달 백본과의 통합 연구가 이어진다면, 학술 문서 디지털화와 접근성 향상에 더욱 큰 기여를 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기