텔루구 OCR 프레임워크 딥러닝 기반 문자 인식 시스템
초록
본 논문은 텔루구 문자에 특화된 OCR 시스템을 제안한다. 이미지 전처리와 수학적 형태학을 이용한 라인·글리프 분할, 460개 클래스를 다루는 깊은 합성곱 신경망(CNN) 기반 문자 분류, 그리고 3차 마코프 체인 언어 모델을 결합해 전체 텍스트를 복원한다. 50개 폰트·4가지 스타일로 생성한 73 000여 개의 라벨링 데이터를 공개하고, 기존 상용 솔루션보다 우수한 정확도를 보고한다.
상세 분석
이 연구는 텔루구와 같이 복합적인 알파시라블(abugida) 구조를 가진 언어에 대한 OCR 문제를 체계적으로 접근한다는 점에서 의미가 크다. 먼저, 전처리 단계에서 행‑잉크 마진을 이용한 스키유 보정과 DFT 기반 라인 간격 추정은 기존의 단순 히스토그램 기반 방법보다 노이즈와 기울기에 강인한 특성을 보인다. 특히, 라인 검출에 사용된 조화 파형(harmonic) 추정은 텔루구 문자에서 흔히 나타나는 긴 디센더와 어센더를 효과적으로 구분한다는 장점이 있다.
문자 분류 부분에서는 48×48 이진 이미지 입력을 갖는 CNN을 설계하고, 데이터 증강, 드롭아웃, 레이어 정규화 등 최신 딥러닝 트릭을 적용하였다. 460개의 클래스(16 모음 + 37 자음 조합 + 기타 기호)라는 높은 차원을 다루면서도, 폰트·스타일 다양성을 반영한 73 000개의 합성 데이터셋을 구축한 점은 학습 안정성과 일반화 성능을 크게 향상시킨다. 특히, 글리프의 위치 정보(베이스라인 대비 위·아래 위치)를 라벨에 포함시켜 CNN에 추가적인 컨텍스트를 제공한 설계는 동일 글리프가 다른 위치에서 다른 의미를 가질 수 있는 텔루구 특성을 잘 반영한다.
언어 모델로 3차 마코프 체인을 도입한 것은 글리프 수준에서의 장거리 의존성을 포착한다는 점에서 주목할 만하다. 마코프 차수를 3으로 설정함으로써, 현재 글리프뿐 아니라 앞선 두 글리프의 조합을 고려해 오류 복구와 문맥 기반 후보 선택을 수행한다. 이는 특히 분할 오류나 깨진 글리프가 발생했을 때, 언어적 규칙을 통해 복원 가능성을 높인다.
실험 결과는 구글 텐서플로우 기반 Tesseract와 비교했을 때 문자 오류율이 현저히 낮으며, 인간 수준에 근접한 정확도를 달성했다고 주장한다. 그러나 논문 본문에 제시된 정량적 평가 지표(예: CER, WER)와 베이스라인 설정에 대한 상세 설명이 부족해 재현 가능성을 완전히 검증하기는 어렵다. 또한, 실제 스캔 문서에서 발생하는 복잡한 배경, 색상 변동, 손글씨 등 다양한 노이즈에 대한 실험이 제한적이며, 이러한 상황에서의 성능을 추가로 검증할 필요가 있다.
전반적으로, 데이터 생성 파이프라인 공개, CNN 아키텍처 상세 기술, 언어 모델 통합이라는 세 축을 균형 있게 제시함으로써 텔루구 OCR 분야에 중요한 벤치마크를 제공한다. 향후 연구에서는 다중 언어 확장, 엔드‑투‑엔드 학습(세그멘테이션·분류·언어 모델을 하나의 네트워크로 통합) 및 실시간 모바일 적용 가능성 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기