경량 OCR 도메인 적응: 분리형 언어 모델로 텍스트 라인 인식 혁신
본 논문은 시각적 문자 검출기와 사전학습 언어 모델을 분리하여 OCR 도메인 적응 비용을 95% 절감한다. T5와 ByT5를 활용한 교정기로 현대 손글씨와 고전 문서 모두에서 SOTA 수준의 문자 오류율을 달성한다.
저자: Arundhathi Dev, Justin Zhan
본 논문은 OCR(광학 문자 인식) 분야에서 도메인 적응에 필요한 막대한 계산 비용을 크게 낮추는 새로운 프레임워크를 제안한다. 기존의 최첨단 엔드‑투‑엔드 트랜스포머 모델은 시각적 특징 추출과 언어적 디코딩을 하나의 거대한 네트워크 안에서 동시에 학습한다. 이 구조는 새로운 도메인(예: 고전 문서, 특수 서체)으로 전이할 때 시각적 백본까지 다시 학습해야 하는 비효율성을 초래한다. 저자는 이러한 문제를 ‘시각 검출기’와 ‘언어 교정기’ 두 개의 독립 모듈로 분리함으로써 해결한다.
시각 검출기 부분은 DINO‑DETR 기반의 경량 트랜스포머 검출기를 사용한다. 167개의 라틴 문자(대소문자, 숫자, 구두점, 다이아크리틱)를 클래스로 정의하고, 위키피디아 텍스트를 기반으로 만든 대규모 합성 데이터셋을 이용해 사전 학습한다. 합성 과정에서는 다양한 폰트, 손글씨 스타일, 배경 색상, 블러, 블록 마스킹 등 실제 문서에서 발생할 수 있는 노이즈를 인위적으로 삽입한다. 이렇게 학습된 검출기는 한 번만 훈련되면 여러 스크립트와 스타일에 재사용 가능하며, 새로운 도메인에선 라인 수준 라벨만을 이용해 CTC 손실로 3시간 내외의 가벼운 미세조정만 수행한다.
언어 교정기 부분은 사전학습된 텍스트‑투‑텍스트 모델인 T5, ByT5, BART를 활용한다. 교정기의 학습 데이터는 검출기가 만든 문자 시퀀스에 합성 노이즈(문자 삭제·삽입·대체·블록 마스킹)를 적용한 쌍으로 구성한다. 실제 라벨이 없는 도메인에서도 이 방식으로 충분히 교정기를 학습시킬 수 있다. 토큰 기반 T5는 현대 영어와 같이 어휘가 최신 코퍼스에 잘 매핑되는 경우에 강점을 보이며, ByT5는 바이트 수준으로 직접 복원하기 때문에 고어·맞춤법 변형이나 OOV가 많은 고전 문서에서 우수한 성능을 발휘한다. BART는 중간 규모의 모델로, 빠른 수렴과 비교적 적은 파라미터로도 괜찮은 결과를 제공한다.
실험은 세 가지 손글씨 데이터셋을 대상으로 진행되었다. CVL(현대 깨끗한 손글씨)에서는 T5‑Base가 1.90 % CER로 최고 성능을 기록했으며, IAM(현대 필기체)에서는 ByT5‑Base가 5.65 % CER, T5‑Base가 5.40 % CER를 보였다(노이즈 종류에 따라 차이). 가장 어려운 고전 문서인 George Washington Papers에서는 ByT5‑Base가 5.35 % CER로 T5‑Base(5.86 %)보다 우수했다. 전체 파이프라인은 엔드‑투‑엔드 트랜스포머가 요구하는 200‑600 GPU‑hour 대비 4 GPU‑hour(단일 A100)만으로 도메인 적응이 가능했으며, 이는 약 95 %의 연산 절감에 해당한다.
주요 기여는 다음과 같다. 첫째, 시각‑언어 모듈을 명확히 분리해 시각적 백본을 재학습할 필요 없이 한 번만 학습하고 재사용함으로써 연산 효율성을 극대화했다. 둘째, 라벨이 없는 실제 도메인에서도 합성 노이즈만으로 교정기를 학습시켜 라벨링 비용을 크게 낮췄다. 셋째, 토큰‑ 기반과 바이트‑기반 교정기의 성능 특성을 체계적으로 비교해 도메인 특성(현대 어휘 vs. 고전 어휘)에 맞는 모델 선택 가이드를 제공했다. 제한점으로는 라틴 알파벳 외의 스크립트(예: 한자, 아라비아어)에서 검출기와 교정기의 일반화가 아직 검증되지 않았으며, 복잡한 페이지 레이아웃(다중 컬럼, 표) 처리에 대한 확장성이 부족하다. 향후 연구에서는 멀티스크립트 검출기와 다중언어 교정기의 공동 최적화, 페이지‑레벨 레이아웃 인식과의 통합, 그리고 실제 디지털 인문학 워크플로우에 적용 가능한 인터페이스 개발을 목표로 할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기