실제 촬영 문서 파싱 및 번역을 위한 포괄적 벤치마크 DocPTBench

초록

멀티모달 대형 언어 모델(MLLM)의 등장으로 문서의 엔드‑투‑엔드 파싱과 번역이 가능해졌다. 그러나 OmniDocBench와 DITrans와 같은 기존 벤치마크는 깨끗한 스캔 혹은 디지털 원본 문서에 치우쳐 있어, 기하학적 왜곡·조명 변화와 같은 실제 촬영 환경의 복잡한 문제를 충분히 반영하지 못한다. 이러한 격차를 메우기 위해 우리는 사진 촬영 문서 파싱·번역 전용 벤치마크인 DocPTBench를 제안한다. DocPTBench는 1,300여 장 이상의 고해상도 사진 문서를 다중 도메인에서 수집했으며, 8가지 번역 시나리오와 파싱·번역 모두에 대해 인간이 검증한 정밀한 라벨을 제공한다. 실험 결과, 디지털 원본에서 사진 촬영 문서로 전환할 경우, 대표적인 MLLM은 파싱 정확도가 평균 18%, 번역 정확도가 평균 12% 감소했으며, 특화된 문서 파싱 모델은 평균 25%의 성능 저하를 보였다. 이처럼 실제 촬영 조건이 모델의 견고성을 크게 저해한다는 점을 확인했으며, 기존 모델들의 한계를 드러냈다. 데이터셋과 코드는 https://github.com/Topdu/DocPTBench 에서 공개한다.

상세 요약

DocPTBench는 기존 문서 이해 벤치마크가 간과해 온 ‘현장 촬영’이라는 중요한 변수를 체계적으로 도입함으로써, 멀티모달 언어 모델과 전통적인 문서 파싱 시스템의 실제 적용 가능성을 재평가하게 만든다. 첫째, 데이터 수집 과정에서 저해상도 스마트폰, 다양한 조명 조건, 각도 왜곡, 그림자 및 반사 등 현실적인 촬영 변수를 의도적으로 포함시켰다. 이는 모델이 이미지 전처리 단계에서 왜곡 보정이나 색 보정 없이도 의미 정보를 추출해야 함을 의미한다. 둘째, 1,300여 장 이상의 고해상도 이미지와 8가지 언어 쌍(예: 한국어‑영어, 영어‑중국어 등)을 포함한 번역 시나리오는 다국어 번역 능력을 동시에 평가하도록 설계되었다. 특히, 인간 검증 라벨링을 통해 파싱(텍스트 영역 검출·구조 추출)과 번역(문맥 유지·용어 정확도) 양쪽 모두에서 정밀도를 확보했으며, 이는 기존 자동 라벨링에 의존한 데이터셋보다 신뢰성이 높다.

실험 결과는 두 가지 주요 인사이트를 제공한다. 첫째, MLLM(예: GPT‑4V, LLaVA 등)은 디지털 원본 대비 평균 18%의 파싱 정확도 감소와 12%의 번역 정확도 감소를 보였는데, 이는 이미지 인코더가 왜곡된 픽셀 패턴을 효과적으로 정규화하지 못함을 시사한다. 특히, 작은 글자나 복잡한 레이아웃이 포함된 경우 오류가 급증한다. 둘째, 전통적인 문서 파싱 전용 모델(예: LayoutLMv3, Donut 등)은 평균 25%의 성능 저하를 기록했으며, 이는 모델이 사전 학습 단계에서 주로 깨끗한 스캔 데이터를 사용했기 때문에 촬영 이미지에 대한 일반화 능력이 부족함을 보여준다.

이러한 결과는 현재 모델들이 ‘디지털‑우선’ 설계라는 근본적인 한계를 가지고 있음을 강조한다. 실제 업무 현장에서는 스마트폰이나 디지털 카메라로 촬영된 문서를 바로 처리해야 하는 경우가 빈번한데, 현재 모델들은 사전 처리(왜곡 보정, 조명 보정) 없이 바로 적용하기에 충분히 견고하지 않다. 따라서 향후 연구는 (1) 촬영 이미지에 특화된 데이터 증강 기법(예: 랜덤 투시 변환, 조명 시뮬레이션)과 (2) 멀티스케일 특징 추출 및 왜곡 인식 모듈을 결합한 새로운 아키텍처 개발이 필요하다. 또한, 파싱과 번역을 동시에 최적화하는 다중태스크 학습 프레임워크가 성능 격차를 줄이는 데 유효할 것으로 기대된다.

마지막으로, DocPTBench는 오픈소스 형태로 제공되어 연구 커뮤니티가 자유롭게 확장·재현할 수 있다. 이는 향후 다양한 도메인(예: 영수증, 의료 기록, 법률 문서)과 추가 언어 쌍을 포함한 벤치마크 확장에 기여할 수 있으며, 실세계 문서 처리 시스템의 신뢰성을 높이는 중요한 기반이 될 것이다.

초록

상세 요약

📜 논문 원문 (영문)