손글씨 아라비아 문자 인식의 새로운 전처리·특징 추출 방법

초록

본 논문은 손글씨 아라비아 문자 인식을 위해 잡음 제거와 구조·통계·형태학적 특징을 결합한 새로운 전처리와 특징 추출 기법을 제안한다. CENPRMI 데이터셋을 이용해 역전파 신경망으로 학습·시험한 결과, 88%의 인식 정확도를 달성했으며, 기존 연구들보다 높은 성능을 보였다.

상세 분석

아라비아어는 문자 간 연결성, 형태 변형, 위치 의존성 등으로 OCR 구현이 특히 어렵다. 논문은 이러한 난점을 극복하기 위해 세 단계로 구성된 파이프라인을 설계하였다. 첫 번째 단계는 전처리로, 스캔 이미지에서 발생하는 다양한 잡음(점, 선, 스머지)을 제거하기 위해 가우시안 필터, 중간값 필터, 그리고 형태학적 연산(침식·팽창)을 순차 적용한다. 특히, 문자 본체와 부속 요소(점, 꼬리 등)를 분리한 뒤 각각에 맞는 잡음 제거 전략을 적용함으로써 중요한 세부 정보를 보존한다. 두 번째 단계는 특징 추출이다. 구조적 특징으로는 획의 시작·끝점, 교차점, 폐곡선 여부 등을 바이너리 이미지에서 라벨링 후 추출하고, 통계적 특징으로는 픽셀 밀도, 수평·수직 히스토그램, 모멘트(중심모멘트, 정규화된 중앙모멘트) 등을 계산한다. 형태학적 특징은 구조적·통계적 특징이 포착하지 못하는 미세한 형태 차이를 보완하기 위해, 문자 본체와 부속 요소 각각에 대해 모폴로지 연산을 통해 얻은 영역 면적, 경계 길이, 비대칭성 지표 등을 포함한다. 이렇게 다차원 특징 벡터를 구성함으로써 동일 문자 내 변형과 서로 다른 문자 간 유사성을 효과적으로 구분한다. 세 번째 단계는 인식기로, 다층 퍼셉트론(MLP) 구조에 역전파 학습을 적용하였다. 은닉층은 두 개를 사용하고, 각각 150·100개의 뉴런을 배치했으며, 활성화 함수는 ReLU, 출력층은 Softmax를 채택해 28개의 아라비아 문자 클래스를 구분한다. 학습 과정에서는 교차 엔트로피 손실 함수를 최소화하고, 과적합 방지를 위해 L2 정규화와 드롭아웃(0.3)을 적용하였다. 실험은 CENPRMI 데이터셋(총 10,000여 장) 중 8,000장을 학습, 2,000장을 테스트에 사용했으며, 전처리·특징 추출 단계별 기여도를 평가하기 위해 Ablation Study를 수행하였다. 결과는 전처리와 형태학적 특징을 모두 포함했을 때 테스트 정확도가 88%에 도달했으며, 전처리만 적용했을 경우 81%, 형태학적 특징만 적용했을 경우 75% 수준에 머물렀다. 이는 잡음 제거와 다중 특징 결합이 인식 성능 향상에 결정적임을 보여준다. 또한, 기존 연구들(예: SVM 기반 78%, CNN 기반 84%)과 비교했을 때 제안 방법이 가장 높은 정확도를 기록했으며, 특히 부속 요소(점·쉼표 등)의 처리에서 큰 차별점을 보였다. 그러나 논문은 데이터셋이 제한적이며, 실제 현장 적용 시 다양한 필기 도구와 배경 조건을 고려해야 한다는 한계를 인정한다. 향후 연구에서는 합성 데이터 증강, 심층 CNN·RNN 하이브리드 모델과의 결합, 그리고 실시간 모바일 구현을 목표로 할 계획이다.