오프라인 손글씨 벵골어 문자 분할 기법

초록

본 논문은 벵골어 손글씨의 연속된 문자 이미지를 개별 문자 단위로 분리하는 새로운 오프라인 분할 알고리즘을 제안한다. 벵골어는 문자 주변에 부수(첨자)가 둘러싸는 구조적 특성으로 기존 영문 기반 분할 방법이 적용되기 어렵다. 제안 기법은 218개의 이상적인 분할 지점을 포함한 실험 데이터에서 97.7%의 성공률을 달성했으며, 향후 인식 단계로의 연계 가능성을 제시한다.

상세 분석

벵골어는 세계에서 네 번째로 많이 사용되는 언어이며, 그 문자 체계는 복합적인 구조를 가진다. 기본 자음·모음 외에도 ‘উৎপাদন’이라 불리는 부수(첨자)가 본문 위·아래·양쪽에 배치되어 문자 전체를 둘러싸는 형태를 띤다. 이러한 특성은 전통적인 영문 OCR에서 활용되는 수직·수평 연속선 탐지, 히스토그램 기반 분할, 혹은 연결 성분 분석과 같은 기법을 그대로 적용할 경우, 문자와 부수 사이의 경계가 모호해져 과다 혹은 과소 분할이 발생한다는 근본적인 문제를 야기한다.

논문은 이러한 문제점을 해결하기 위해 ‘연결성 기반 지역 특징 추출’과 ‘동적 임계값 조정’이라는 두 축을 중심으로 알고리즘을 설계하였다. 첫 단계에서는 이진화된 이미지에서 8-연결성 컴포넌트를 추출하고, 각 컴포넌트의 외곽 경계와 내부 구멍(루프) 정보를 동시에 고려한다. 특히, ‘루프 면적 비율’과 ‘경계 곡률’이라는 두 가지 지표를 도입해 부수가 본문을 둘러싸는 경우에도 내부와 외부를 명확히 구분한다.

두 번째 단계에서는 연속된 문자 사이에 존재하는 ‘잠재적 분할점 후보’를 탐색한다. 여기서는 수직 투영 히스토그램을 사용하되, 전통적인 전역 임계값 대신 지역적 평균과 표준편차를 기반으로 동적으로 임계값을 설정한다. 이 과정에서 ‘연결성 손실’(connectivity loss)이라는 새로운 비용 함수를 정의하여, 후보 점이 실제 문자 경계와 일치할 경우 비용이 최소가 되도록 설계하였다.

실험은 218개의 이상적인 분할 지점을 포함하는 손글씨 데이터셋을 이용해 수행되었으며, 제안 알고리즘은 213개의 정확한 분할을 달성해 97.7%의 성공률을 기록했다. 오인식 사례는 주로 매우 얇은 획이나, 글자 간 겹침이 심한 경우에 국한되었으며, 이는 향후 ‘획 두께 보정’ 혹은 ‘겹침 해소’를 위한 전처리 단계 추가로 개선 가능함을 시사한다.

또한, 논문은 분할된 문자 조각에 대한 ‘특징 분석’이 향후 인식 엔진에 직접 연결될 수 있음을 강조한다. 현재는 분할 정확도만을 평가했지만, 추후 연구에서는 분할 결과를 기반으로 한 CNN 기반 인식 모델과의 연동 실험을 통해 전체 OCR 파이프라인의 성능을 종합적으로 향상시킬 수 있을 것으로 기대된다.

이와 같이, 본 연구는 벵골어 손글씨 특유의 복합 구조를 고려한 맞춤형 분할 전략을 제시함으로써, 기존 OCR 시스템이 직면한 언어‑특화 문제를 효과적으로 해결하고, 다국어 문서 처리 분야에서의 적용 가능성을 넓히는 중요한 발걸음이라 할 수 있다.