동영상에서 방글라어 텍스트 인식: 새로운 접근법

초록

본 논문은 복잡한 색상 배경과 저해상도 영상에서 방글라어 텍스트를 추출·인식하기 위한 두 단계 알고리즘을 제안한다. 첫 단계에서는 라인 컨투어 정보를 활용해 텍스트 라인을 단어 단위로 분할하고, 1차 그래디언트 값을 이용해 단어 간 간격을 검출한다. 이후 각 단어에 로컬 이진화 기법을 적용해 이진 이미지로 변환한 뒤, 재구성된 텍스트 라인을 OCR 엔진에 전달해 최종 인식을 수행한다.

상세 분석

이 논문이 다루는 문제는 동영상 프레임에 존재하는 방글라어 텍스트를 정확히 추출하고 인식하는 것으로, 기존의 라틴 문자 기반 영상 텍스트 인식 기술을 그대로 적용하기 어려운 특수성을 가지고 있다. 방글라어는 복합적인 자음·모음 결합 형태와 복잡한 곡선 구조를 가지며, 영상에서는 특히 저해상도와 색상 혼합으로 인해 경계가 흐릿해지는 경향이 있다. 이러한 점을 감안해 저자들은 두 단계 접근법을 설계했으며, 각 단계는 다음과 같은 기술적 특징을 가진다.

라인 컨투어 기반 단어 분할
- 텍스트 라인을 먼저 검출한 뒤, 라인 컨투어(윤곽) 정보를 이용해 라인 내부의 수평·수직 변화를 분석한다.
- 라인 내부에서 연속적인 검은색(또는 어두운) 픽셀 구간을 찾아 텍스트 블록을 정의하고, 블록 간의 간격을 측정한다.
- 이때 1차 그래디언트(수평 방향 차분)를 활용해 급격한 밝기 변화가 발생하는 지점을 단어 경계 후보로 선정한다. 그래디언트 값이 일정 임계값 이하인 구간을 ‘단어 간격’으로 판단한다.
로컬 이진화 및 재구성
- 검출된 각 단어 블록에 대해 전역 이진화가 아닌 로컬 이진화(예: Sauvola, Niblack 변형)를 적용한다. 이는 배경 색상이 불균일하고 조명 변화가 큰 영상에서 특히 효과적이다.
- 로컬 이진화는 각 단어 영역의 평균 밝기와 표준편차를 기반으로 동적으로 임계값을 조정함으로써, 얇은 스트로크와 작은 점들을 보존한다.
- 이진화된 단어 이미지를 원래 라인 순서대로 연결(concatenation)하여 전체 텍스트 라인을 복원한다.
OCR 연동
- 복원된 이진 텍스트 라인은 기존 방글라어 OCR 엔진(예: Tesseract 기반 커스텀 모델)으로 전달된다. 논문에서는 OCR 엔진 자체의 개선보다는 전처리 단계의 효율성에 초점을 맞추었다.

핵심 기여점

라인 컨투어와 1차 그래디언트를 결합한 단어 간격 검출 방법은 저해상도 영상에서도 비교적 안정적인 단어 분할을 가능하게 한다.
로컬 이진화 적용을 단어 단위로 제한함으로써 연산량을 전체 프레임에 적용하는 전역 이진화보다 효율적이며, 배경 잡음에 대한 강인성을 확보한다.

제한점 및 개선 가능성

논문에서는 실험 결과나 정량적 평가(정확도, 재현율, F1-score 등)가 제시되지 않아, 제안 방법의 실제 성능을 객관적으로 판단하기 어렵다.
단어 경계 검출에 사용되는 그래디언트 임계값이 고정값으로 설정된 경우, 다양한 조명·배경 조건에 따라 튜닝이 필요할 수 있다. 적응형 임계값 설정이나 머신러닝 기반 경계 예측 모델을 도입하면 일반화가 향상될 것이다.
현재 OCR 단계는 ‘블랙박스’ 형태로 다루어졌으며, 방글라어 특유의 결합 문자(য, ্, etc.)에 대한 사전 처리나 언어 모델링이 포함되지 않았다. 전처리와 OCR을 공동 최적화하는 엔드투엔드 딥러닝 파이프라인이 향후 연구 방향이 될 수 있다.

비교 대상 및 기존 연구와의 차별성

기존 영상 텍스트 인식 연구는 주로 라틴 알파벳에 초점을 맞추어, 문자 간 간격이 일정하고 형태가 비교적 단순한 경우에 효과적이었다. 방글라어는 복합 문자 결합과 곡선이 많아, 전통적인 수평 프로젝션 기반 분할이 부정확할 가능성이 크다.
본 논문은 라인 컨투어와 그래디언트를 이용해 ‘구조적’ 정보를 활용함으로써, 문자 결합이 복잡한 방글라어에서도 단어 경계를 탐지한다는 점에서 차별성을 가진다.

실용적 적용 가능성

뉴스 방송, 소셜 미디어 영상, 교통 표지판 등 방글라어가 포함된 실시간 영상 스트리밍에서 텍스트 추출·번역 파이프라인에 바로 적용할 수 있다. 특히 저해상도 모바일 스트리밍 환경에서 로컬 이진화와 단어 단위 처리 방식은 연산 효율성을 제공한다.

결론
전반적으로 이 논문은 방글라어 영상 텍스트 인식이라는 특수 도메인에 대한 초기 탐색을 제공한다. 라인 컨투어 기반 단어 분할과 로컬 이진화 전략은 실용적인 전처리 단계로서 의미가 크지만, 정량적 실험과 다양한 영상 조건에 대한 일반화 검증이 추가되어야 한다. 향후 연구에서는 딥러닝 기반 엔드투엔드 모델과 언어 모델을 결합해 인식 정확도를 높이는 방향이 기대된다.