OCRTurk 터키어 OCR 벤치마크
초록
OCRTurk는 학술 논문, 학위 논문, 슬라이드, 비학술 문서 등 4가지 카테고리와 쉬움·보통·어려움 3단계 난이도로 구성된 180페이지 규모의 터키어 문서 파싱 벤치마크이다. 텍스트, 표, 수식, 그림 네 가지 레이아웃 요소를 마크다운 형태로 정제해 제공하며, 정규화 편집 거리(NED), 터키어 문자 민감도(TCS), 트리 편집 거리 기반 유사도(TEDS), BLEU 등 요소별 정량 지표를 제시한다. 7개 OCR 모델을 평가한 결과 PaddleOCR가 전반적으로 가장 높은 성능을 보였고, 비학술 문서에서 강점, 슬라이드에서는 약점을 드러냈다.
상세 분석
본 논문은 터키어 OCR 연구에 실질적인 공백을 메우기 위해 OCRTurk라는 새로운 벤치마크를 설계·제공한다. 데이터 수집 단계에서 arXiv, DergiPark, YÖK TEZ, MEB OGM 등 다양한 공개 저장소에서 실제 PDF 문서를 추출했으며, 각 페이지를 마크다운(텍스트), HTML(표), LaTeX(수식), PNG(그림) 형태로 통일된 포맷에 변환하였다. 특히 헤더·풋터를 사전 제거하고, 두 명의 annotator가 문자 수준까지 교차 검증함으로써 라벨링 정확도를 높였다. 난이도 구분은 텍스트 전용(쉬움), 텍스트+단일 요소(보통), 텍스트+다중 복합 요소(어려움)로 정의돼 모델의 구조적 복잡성 대응 능력을 정밀히 측정한다. 평가 지표는 텍스트에 대해 NED와 터키어 특수 문자 오류 비율을 반영한 TCS를, 표에 대해 트리 구조 편집 거리 기반 TEDS와 셀 내용 편집 거리 NED를, 수식에 대해 BLEU와 CDM, NED를, 그림에 대해서는 별도 지표를 제시해 요소별 성능을 다각도로 분석한다. 실험 결과 PaddleOCR가 전체 평균 점수와 대부분의 요소에서 최고 성적을 기록했으며, 특히 텍스트 NED와 TCS에서 0.92 이상의 점수를 얻었다. 반면 수식 인식에서는 모든 모델이 BLEU 0.45 수준에 머물렀고, 슬라이드 문서에서는 복잡한 레이아웃과 작은 폰트 때문에 표·그림 인식 정확도가 현저히 낮았다. 이러한 결과는 OCR 모델이 텍스트 중심의 데이터에 최적화돼 있으며, 구조적 복합 요소와 저해상도 레이아웃에 대한 추가 학습이 필요함을 시사한다. 또한, 기존 영어 중심 벤치마크와 달리 터키어 고유 문자(ç, ğ, ı, ö, ş, ü 등)의 오류 분석을 통해 언어 특화 전처리와 사전 학습의 중요성을 강조한다. 논문은 데이터와 평가 스크립트를 공개함으로써 향후 연구자들이 다양한 OCR 파이프라인을 실제 터키어 문서에 적용하고, 모델 개선을 위한 정확한 피드백을 받을 수 있는 기반을 마련했다.
댓글 및 학술 토론
Loading comments...
의견 남기기