문서 레이아웃을 살린 새로운 텍스트 표현, Chargrid
초록
Chargrid는 문서 페이지를 문자 단위의 2차원 격자로 변환해 레이아웃 정보를 보존한다. 1‑hot 인코딩된 격자를 입력으로 VGG‑스타일 전역‑컨볼루션 네트워크가 픽셀‑단위 의미 분할과 바운딩 박스 회귀를 동시에 수행한다. 인보이스 정보 추출 실험에서 기존 1‑D 텍스트 기반 모델과 이미지 기반 모델을 크게 앞섰다.
상세 분석
본 논문은 구조화된 문서의 2차원 레이아웃을 직접 모델링할 수 있는 새로운 텍스트 표현인 Chargrid를 제안한다. 기존 NLP 파이프라인은 텍스트를 순차적인 1‑D 시퀀스로 변환하기 때문에 레이아웃에 내재된 의미(예: 표, 컬럼, 헤더 위치)를 활용하기 어렵다. 반면 컴퓨터 비전 접근법은 문서 이미지를 그대로 사용하지만, 텍스트 내용 자체를 직접 활용하지 못해 대규모 학습 데이터와 복잡한 OCR 전처리가 필요하다. Chargrid는 OCR 혹은 PDF/HTML에서 추출한 문자 박스 정보를 이용해 각 문자 영역을 고유한 정수 인덱스로 채우고, 빈 영역은 0으로 채워 H × W 크기의 희소 격자를 만든다. 문자 박스가 겹치는 경우에는 중심 거리가 가장 가까운 박스에 할당함으로써 일관성을 유지한다. 이렇게 생성된 격자는 1‑hot 인코딩을 거쳐 H × W × N₍c₎ 텐서가 되며, N₍c₎는 문자 집합 크기(패딩·알 수 없는 문자 포함)이다.
네트워크는 인코더‑디코더 구조로, 인코더는 VGG‑계열에 dilated convolution과 batch‑norm, spatial dropout을 적용해 깊은 특징을 추출한다. 각 블록은 stride‑2 convolution으로 다운샘플링하면서 채널 수를 두 배씩 늘리고, 3‑번째~5‑번째 블록에서는 각각 dilation = 2, 4, 8을 사용해 수용 영역을 확대한다. 디코더는 두 개의 브랜치로 구성된다. 하나는 픽셀‑단위 클래스 확률을 출력하는 semantic segmentation 브랜치이며, softmax를 통해 9개의 클래스(배경 포함) 중 하나를 예측한다. 다른 하나는 bounding box regression 브랜치로, anchor‑box 기반의 1‑stage detector와 focal loss를 결합해 객체(라인 아이템) 위치를 추정한다. 전체 손실은 세 부분(L_seg, L_boxmask, L_boxcoord)의 가중합으로, 클래스 불균형을 완화하기 위해 static class weighting을 적용한다.
실험은 12 000장의 다국어 인보이스 데이터셋(10 k train, 1 k val, 1 k test)에서 수행되었다. 데이터는 다양한 공급업체와 언어(영어, 프랑스어, 스페인어, 노르웨이어, 독일어 등)로 구성돼 실제 비즈니스 환경을 잘 반영한다. 모델은 헤더 필드(번호, 날짜, 금액, 공급업체명·주소)와 라인 아이템(설명, 수량, 금액) 총 9개의 클래스를 동시에 학습한다. 평가 지표는 F1‑score와 IoU이며, Chargrid‑net은 기존 1‑D BiLSTM‑CRF 기반 NER 모델과 이미지‑기반 Faster‑RCNN 대비 각각 평균 15~20%p 높은 성능을 기록한다. 특히 레이아웃이 복잡한 경우(다중 컬럼, 비표준 날짜 형식 등)에서 우수한 일반화 능력을 보였다.
주요 장점은 (1) 레이아웃 정보를 손실 없이 보존하면서도 텍스트 의미를 직접 활용할 수 있다는 점, (2) 문자‑픽셀 단위로 다운샘플링이 가능해 연산 효율성이 높다는 점, (3) 별도 OCR‑후처리 없이도 end‑to‑end 학습이 가능하다는 점이다. 한계로는 (가) 문자 박스가 정확히 제공되어야 하며, OCR 오류가 있으면 격자 품질이 저하될 수 있다. (나) 현재는 문자 수준만 다루고 있어, 복잡한 문맥을 포착하려면 word‑grid 혹은 hybrid embedding이 필요할 수 있다. 또한 대규모 vocab(다국어)에서는 1‑hot 차원이 급증해 메모리 부담이 커지는 점도 고려해야 한다.
향후 연구 방향으로는 (i) word‑grid 혹은 sub‑word embedding을 결합한 하이브리드 표현, (ii) OCR‑오류에 강인한 정규화 기법, (iii) 문서 전체 흐름을 파악하기 위한 transformer‑기반 전역 컨텍스트 모델링 등을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기