역사 OCR 오류 프로파일링 혁신
초록
본 논문은 Reffle(2013)에서 제시한 OCR 오류 프로파일링 방법을 세 가지 측면에서 개선한다. 사용자 교정 정보를 활용한 적응형 모델, 새로운 역사적 맞춤법 패턴의 추가, 그리고 해석 불가능 토큰을 오류 후보에 포함함으로써 오류 탐지의 정밀도와 재현율을 동시에 향상시킨다.
상세 분석
본 연구는 OCR된 역사 문서의 오류를 자동으로 프로파일링하는 기존 방법의 한계를 정확히 짚어낸다. 기존 Reffle(2013) 모델은 고정된 사전과 패턴 집합, 그리고 제한된 오류 채널 모델을 기반으로 EM 알고리즘을 수행했지만, 실제 포스트코렉션 과정에서 발생하는 사용자 피드백을 반영하지 못했다는 점이 가장 큰 약점으로 지적된다. 이를 보완하기 위해 저자들은 세 가지 핵심 개선점을 제시한다. 첫째, 교정된 토큰을 즉시 모델에 반영하는 적응형 EM 절차를 도입한다. 사용자가 직접 지정한 정답(w_gt)을 기반으로 OCR 오류 트레이스(τ_ocr)를 무제한으로 탐색하고, 역사적 채널(τ_hist) 역시 사전 확장과 매칭을 통해 최신화한다. 이 과정에서 기존에 해석되지 않던 토큰도 새로운 사전에 추가되어 이후 라운드에서 더 정확한 해석이 가능해진다. 둘째, 기존 IMPACT 프로젝트에서 제공한 독일어 역사적 패턴 집합을 확대한다. 16세기와 17세기 인쇄물에 특화된 추가 규칙을 수집·검증함으로써, 현대 어휘와 역사적 어휘 사이의 변형을 보다 정밀하게 모델링한다. 결과적으로 동일 형태의 토큰이 실제 역사적 변형인지 OCR 오류인지를 구분하는 능력이 크게 강화된다. 셋째, 기존 모델이 채널 제한으로 인해 전혀 해석되지 못한 토큰을 완전히 무시했지만, 이들을 오류 후보군에 포함시켜 재현율을 높인다. 이러한 토큰은 ‘해석 불가능 토큰’으로 라벨링되어, EM 단계에서 오류 유형 확률(O)과 패턴 확률(H) 추정에 기여한다. 실험에서는 두 개의 독일어 역사 텍스트(1557년, 1609년)를 대상으로, 적응형 모델, 확장된 패턴, 그리고 해석 불가능 토큰 활용 각각이 정밀도와 재현율 모두에서 유의미한 상승을 보였으며, 세 가지 개선을 모두 적용했을 때 가장 큰 성능 향상이 관찰되었다. 특히, 적은 수의 교정만으로도(사용자 피드백 기반) 초기 프로파일링 품질을 크게 끌어올릴 수 있음을 입증했다. 이와 같은 접근은 대규모 디지털화 프로젝트에서 OCR 품질 추정 및 효율적인 인간‑기계 협업을 가능하게 한다는 점에서 실용적 의의를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기