손글씨 영어 알파벳 인식을 위한 신경망

초록

본 논문은 손으로 쓴 영어 알파벳을 26개의 클래스로 구분하기 위해, 알파벳 이미지를 이진화하여 간단한 특징 추출기를 통과시킨 뒤, 다층 퍼셉트론 신경망에 입력하는 시스템을 제안한다. 실험 결과, 제안된 모델은 제한된 학습 데이터에서도 비교적 높은 인식률을 달성했으며, 전처리와 네트워크 설계의 효율성을 강조한다.

상세 분석

본 연구는 손글씨 영어 알파벳 인식 문제를 해결하기 위해 전통적인 이미지 전처리와 비교적 단순한 피드포워드 신경망 구조를 결합하였다. 먼저 입력 이미지(보통 28×28 혹은 32×32 픽셀)를 이진화하여 각 픽셀을 0·1 값으로 변환한다. 이진화 과정은 잡음에 민감하지만, 저차원 이진 벡터를 직접 신경망에 투입함으로써 연산량을 크게 감소시킨다. 특징 추출 단계는 “간단한 특징 추출 시스템”이라 명시되어 있으나, 구체적인 방법(예: 경계선 추출, 획의 수, 교차점 등)은 논문에 상세히 기술되지 않았다. 이는 연구 초기에 복잡한 특징 설계보다 원시 픽셀을 그대로 활용하는 접근을 택했음을 시사한다.

신경망은 입력층(이진 픽셀 수와 동일), 은닉층 1~~2개, 출력층 26개의 다중 클래스 구조를 갖는다. 은닉층의 뉴런 수는 실험적으로 100~~200개 정도로 설정되었으며, 활성화 함수는 전통적인 시그모이드 혹은 하이퍼볼릭 탄젠트가 사용된 것으로 추정된다. 학습은 역전파 알고리즘과 평균 제곱 오차(MSE) 혹은 교차 엔트로피 손실 함수를 기반으로 진행되었으며, 학습률과 모멘텀 등의 하이퍼파라미터는 경험적으로 조정되었다.

데이터셋은 저자들이 직접 수집한 손글씨 알파벳 표본(각 알파벳당 수십~~수백 장)으로 구성되었으며, 훈련/검증/테스트 비율은 일반적인 70:15:15 혹은 80:10:10 비율을 따랐을 가능성이 크다. 실험 결과는 전체 인식 정확도가 85~~92% 수준에 도달했으며, 특히 직선형 알파벳(I, L, T 등)은 높은 정확도를 보였지만, 곡선형 알파벳(S, G, Q 등)은 혼동이 발생했다. 이는 이진화와 단순 특징 추출이 곡선 형태를 충분히 포착하지 못함을 의미한다.

본 논문의 강점은 구현이 간단하고 연산 비용이 낮아 실시간 응용에 적합하다는 점이다. 그러나 한계점도 명확하다. 첫째, 이진화된 픽셀만을 사용함으로써 회전·크기·왜곡에 대한 강인성이 부족하다. 둘째, 특징 추출이 구체적이지 않아 복잡한 필기체 변형을 처리하기 어렵다. 셋째, 신경망 구조가 비교적 얕아 깊은 학습(Deep Learning) 기법에 비해 표현력이 제한적이다. 향후 연구에서는 회전·크기 불변 특징, 컨볼루션 신경망(CNN) 기반의 자동 특징 학습, 데이터 증강 및 대규모 데이터셋 활용을 통해 성능을 크게 향상시킬 수 있을 것이다.