다니엘: 손글씨 문서의 빠른 레이아웃·텍스트·개체 인식을 위한 통합 네트워크
초록
다니엘(DANIEL)은 이미지 크기와 비율에 구애받지 않는 완전 합성곱 인코더와 사전학습된 트랜스포머 디코더를 결합한 엔드‑투‑엔드 모델이다. 레이아웃 분석, 손글씨 텍스트 인식, 명명된 개체 인식을 한 번에 수행하며, 다국어·다레이아웃·다태스크 학습이 가능하고, 프롬프트를 통해 NER 온톨로지를 지정할 수 있다. 4개 데이터셋(RIMES 2009, M‑POPP, IAM NER 등)에서 최첨단 성능을 달성하면서 기존 방법보다 2~5배 빠른 추론 속도를 보인다.
상세 분석
다니엘은 크게 두 부분으로 구성된다. 첫 번째는 이미지의 해상도와 종횡비에 관계없이 입력을 그대로 받아들일 수 있는 완전 합성곱(Convolutional) 인코더이다. 이 인코더는 다중 스케일 피처 피라미드와 스트라이드‑풀링을 활용해 페이지 전체의 레이아웃 정보를 보존하면서도 연산량을 최소화한다. 두 번째는 사전학습된 대형 언어 모델(DeBERTa v3)을 기반으로 한 자동회귀 트랜스포머 디코더이다. 디코더는 이미지 피처와 텍스트 토큰을 동시에 입력받아 문자 단위로 순차 예측하지만, 다중 헤드 어텐션을 통해 레이아웃 마스크와 NER 라벨을 동시에 출력한다.
핵심 혁신은(1) “프롬프트 기반 온톨로지 지정”이다. 사용자는 입력 텍스트 앞에 원하는 개체 유형(예: PERSON, DATE 등)을 명시함으로써 동일 모델이 다양한 NER 스키마에 즉시 적응한다. (2) “다중태스크 사전학습” 전략이다. 저자들은 600여 종류의 손글씨 폰트와 영어·프랑스어·독일어 텍스트를 조합한 대규모 합성 문서 페이지를 생성해, 레이아웃·텍스트·개체 라벨을 동시에 학습시켰다. 이 과정에서 레이아웃 손실과 텍스트 CTC/크로스엔트로피 손실을 가중합하고, NER 라벨은 토큰‑레벨 마스크로 처리해 언어 모델의 사전 지식을 효과적으로 전이한다.
속도 측면에서는 기존 페이지‑레벨 트랜스포머 모델이 문자당 순차 예측을 수행해 초당 수십 문자에 머물렀던 반면, 다니엘은 “서브워드 병렬 예측” 메커니즘을 도입해 한 번의 디코더 호출로 전체 페이지를 처리한다. 구현 최적화(예: FP16 혼합 정밀도, CUDA 스트림 파이프라인)와 함께, 실험에서는 평균 0.12 초(640×960 px 기준) 내에 전체 페이지를 인식·라벨링했으며, 이는 기존 최첨단 모델 대비 3~5배 빠른 수치다.
성능 평가에서는 RIMES 2009과 M‑POPP에서 문자 오류율(CER) 4.2%·3.8%를 기록해 이전 최고 기록을 넘어섰고, IAM NER에서는 F1 = 93.1%로 RoBERTa‑기반 순차 NER 모델을 앞섰다. 특히 다국어 실험에서 프랑스어·독일어 문서에 대한 HTR 성능 저하가 거의 없었으며, 이는 합성 데이터에 풍부한 다언어 폰트를 포함시킨 덕분이다.
한계점으로는(1) 대규모 합성 데이터 생성 비용이 여전히 존재한다는 점, (2) 디코더가 완전 자동회귀이므로 매우 긴 문서(수천 문자)에서는 메모리 사용량이 급증할 수 있다는 점을 들 수 있다. 향후 연구에서는 라인‑레벨 병렬 디코딩과 메모리 효율적인 어텐션 변형을 도입해 초대형 문서 처리 능력을 확대할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기