DohaScript: 대규모 다중 필자 연속 힌디어 손글씨 데이터셋
초록
**
DohaScript는 531명의 필자가 동일한 6개의 힌두어 두하(시) 를 필기한 연속 손글씨 이미지 531장을 제공한다. 문자 연결선인 시로레카와 복합 자소(리가투라) 등을 포함한 Devanagari 스크립트의 구조적 복잡성을 그대로 보존한다. 데이터는 해상도·선명도 기준으로 자동·수동 검증을 거쳤으며, 연령·성별·지역 등 비식별화된 인구통계 메타데이터와 페이지 난이도 라벨을 포함한다. 베이스라인 실험은 필자 구분, 문자 인식, 스타일 변환 등 여러 태스크에서 높은 일반화 성능을 보여, 연속 Devanagari 손글씨 연구의 표준 벤치마크로 활용될 수 있다.
**
상세 분석
**
DohaScript는 기존 인도어 손글씨 데이터베이스가 주로 단일 문자·짧은 단어 수준에 머물러 있는 문제점을 해결하고자 설계되었다. 첫 번째 핵심은 통제된 텍스트 설계이다. 모든 필자가 동일한 6개의 전통적인 두하(시)를 필기함으로써, 언어적 변동성을 최소화하고 필자별 스타일 차이만을 순수하게 분석할 수 있다. 두하는 전통적인 힌두어 운율 구조를 따르며, 각 두하에는 모음·자음·리가투라·시로레카(수평선) 등 Devanagari의 모든 주요 구성 요소가 골고루 포함된다. 이는 모델이 복합 자소 결합, 수평선 연결, 그리고 다양한 모음 부호(마트라)를 학습하도록 강제한다.
두 번째로, 다중 필자와 인구통계 다양성을 확보하였다. 531명의 참여자는 인도 전역 30개 주에 고르게 분포하고, 연령대는 12세에서 70세까지 폭넓게 포함한다(중위 연령 ≈ 28세). 성별 비율도 거의 1:1에 가깝다. 이러한 다양성은 필자 식별, 스타일 전이, 그리고 저자식별 방어 연구에 필수적인 데이터다. 메타데이터는 개인 식별이 불가능하도록 익명화했으며, 각 페이지에 ‘난이도(복잡도)’ 라벨을 부여해 페이지 수준의 레이아웃 복잡성을 정량화하였다.
세 번째로, 품질 관리 파이프라인이 체계적이다. 수집된 스캔은 최소 300 dpi, 8‑bit 그레이스케일을 만족해야 하며, 자동 샤프니스·대비 측정 후 인간 검증을 거쳐 저품질 이미지(흐릿·왜곡·조명 불균형)를 제외한다. 최종 데이터는 531 × 1 페이지(각 필자당 한 페이지) 형태이며, 파일 포맷은 PNG·TIFF 두 가지를 제공한다. 라벨링은 페이지별 XML 파일에 문자 경계와 라인 정보를 포함해, OCR·시퀀스‑투‑시퀀스 모델 학습에 바로 사용할 수 있다.
네 번째로, 베이스라인 실험이 다양하게 수행되었다. (1) 필자 식별: CNN‑기반 4‑클래스(필자 그룹) 분류에서 96 % 이상의 정확도를 기록했으며, 이는 필자 간 스타일 차이가 충분히 뚜렷함을 의미한다. (2) 연속 문자 인식: CTC‑기반 CRNN 모델은 92 % 이상의 문자 정확도를 달성했으며, 특히 시로레카와 리가투라 결합을 정확히 복원했다. (3) 스타일 전이: CycleGAN을 이용한 필자 스타일 변환 실험에서 시각적 품질과 구조 보존 측면에서 인간 평가 점수가 4.2/5를 기록, 기존 인도어 데이터셋 대비 현저히 높은 성능을 보였다. 이러한 결과는 데이터가 실제 애플리케이션(디지털 문서 보관·필자 인증·생성 모델)에서 활용 가능함을 입증한다.
마지막으로, 연구 및 산업적 파급 효과를 논의한다. Devanagari는 세계 5억 명 이상이 사용하는 주요 스크립트임에도 불구하고, 연속 손글씨 데이터가 부족했다. DohaScript는 공개 데이터셋으로서, 저자식별 방어, 다중 필자 OCR, 손글씨 생성·보정 등 다양한 연구 분야에 즉시 적용 가능하다. 또한, 데이터 수집·품질 검증·메타데이터 설계 프로세스는 다른 저자 언어·스크립트(예: Bengali, Tamil)에도 확장 가능하도록 범용 프레임워크를 제시한다. 향후 작업으로는 더 많은 텍스트 다양성(다양한 장르·길이)과 고해상도 라인‑레벨 어노테이션을 추가해, 대규모 언어 모델과 결합한 멀티모달 학습을 목표로 할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기