PDF‑to‑Markdown 변환 가속을 위한 복사 조회 디코딩
초록
본 논문은 PDF 페이지에서 직접 텍스트를 추출해 복사하고, 이를 대형 비전‑언어 모델의 디코더에 후보로 제공함으로써 기존 엔드‑투‑엔드 변환 모델의 토큰‑단위 생성 비용을 크게 줄이는 방법을 제안한다. 기존 Prompt Lookup Decoding(PLD)을 PDF 텍스트에 적용한 수정형 PLD(mPLD)를 기반으로, 복사 가능 텍스트 식별과 후보 생성 전략을 강화한 Copy Lookup Decoding(CLD)을 설계하였다. 실험 결과, Nougat, Kosmos‑2.5, Llama‑3.2‑Vision, Qwen2‑VL 등 네 가지 백본 모델에서 평균 1.1×~1.7×의 속도 향상을 달성했으며, 변환 품질은 유지되었다.
상세 분석
이 논문은 PDF‑to‑Markdown 변환이라는 구체적 과제에 Assisted Generation 기법을 적용한 최초 사례 중 하나로, 두 가지 핵심 기술적 기여를 제시한다. 첫 번째는 기존 PLD가 프롬프트(입력 텍스트) 내부에서 n‑gram 매칭을 수행해 후보를 복사하는 방식을 PDF 전체 텍스트로 확장한 mPLD이다. 여기서 발생할 수 있는 “복사 불가능 텍스트”(수식, 표, 그림 캡션, 페이지 번호 등)와 “후보 위치 편향”(페이지 앞쪽에만 매칭되는 문제)을 해결하기 위해, 저자는 PDF 레이아웃 정보를 활용한 복사 가능 텍스트 식별(Copy‑able Text Identification, CTI) 모듈을 설계했다. CTI는 PyMuPDF 로부터 추출한 span‑level 텍스트와 바운딩 박스를 입력으로, ERNIE‑Layout 모델을 LoRA 방식으로 파인‑튜닝해 각 토큰을 KEEP(복사 가능) 또는 DELETE(복사 불가)로 이진 분류한다. 토큰 수준이 아닌 span 수준에서 투표(voting) 방식을 적용해 노이즈에 강인한 라벨을 생성한다. 실험에서 토큰‑level F1 = 0.985, span‑level F1 = 0.988이라는 높은 정확도를 보이며, 페이지당 평균 0.03 초의 추론 비용만 추가된다.
두 번째 기여는 후보 생성(Candidate Generation, CG) 단계이다. CTI가 반환한 KEEP span들을 인접하게 병합하고, 각 병합된 span을 순차적으로 탐색해 현재 디코더가 예측한 n‑gram과 일치하는 가장 긴 매칭을 찾는다. 매칭이 발견되면 해당 span의 뒤쪽 토큰들을 후보 시퀀스로 제공한다. 후보가 디코더에 의해 검증되면, 진행 중인 span을 리스트 앞쪽으로 이동시켜 “읽기 순서에 맞춘 동적 후보 재배열”을 수행한다. 이 메커니즘은 PDF의 자연스러운 읽기 순서를 유지하면서도, 디코더가 이미 확인한 영역을 빠르게 건너뛰게 해 전체 토큰 생성 횟수를 크게 감소시킨다.
성능 평가에서는 네 가지 백본 모델(Nougat‑base, Kosmos‑2.5, Llama‑3.2‑Vision, Qwen2‑VL)과 세 개의 테스트 셋(전체 arXiv, 경제학 분야, 양자 물리학 분야)을 사용했다. 원본 모델 대비 mPLD는 1.09×~1.38×, CLD는 1.10×~1.70×의 속도 향상을 달성했으며, 특히 파라미터가 큰 모델일수록 가속 효과가 두드러졌다. 품질 측면에서는 기존 모델과 동일한 Markdown 출력을 유지했으며, “복사 불가능” 텍스트는 디코더가 자체적으로 생성하도록 남겨두어 정확도 저하를 방지했다. Ablation 실험에서는 CTI와 CG 각각이 독립적으로 속도 개선에 기여함을 확인했으며, 두 모듈을 모두 적용했을 때 최종 가속률이 최고에 도달한다는 점을 보여준다.
이 연구는 PDF와 같은 복합 레이아웃 문서에서 텍스트 복사가 가능한 부분을 사전에 추출해 LLM 디코더에 제공함으로써, 전통적인 토큰‑단위 자동생성의 비효율성을 크게 해소한다는 점에서 의미가 크다. 또한, PLD와 같은 간단한 후보 매칭 기법을 도메인‑특화된 전처리(레아웃 기반 필터링)와 결합함으로써, 별도 파인‑튜닝 없이도 다양한 VLM 백본에 적용 가능한 범용 솔루션을 제공한다. 향후 연구에서는 표·수식 등 복사 불가능 영역에 대한 특수 처리(예: OCR‑기반 이미지 인식)와, 멀티‑페이지 문서 전체에 걸친 전역 읽기 순서 최적화를 통해 더욱 높은 가속과 품질을 동시에 달성할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기