디지털 구신문 기사 자동 추출을 위한 논리적 분할

초록

본 논문은 구신문 이미지에서 기사 단위의 논리적 구조를 자동으로 추출하는 워크플로우를 제안한다. 픽셀 수준의 레이블링을 머신러닝으로 수행하고, 수평·수직 구분선, 제목, 텍스트 라인 등을 탐지해 페이지의 논리적 구조를 재구성한다. 추출된 구조는 METS/ALTO 형식으로 저장되며, 프론트엔드에서는 고해상도 이미지 시각화와 기사 수준 검색·읽기가 가능하도록 구현하였다. 프랑스 루앙 지방 신문 ‘Journal de Rouen’ 250년(약 30만 페이지) 데이터에 적용해 1808년을 시연하였다.

상세 분석

이 연구는 구신문이라는 복합적인 레이아웃을 가진 문서군을 디지털 아카이브에서 기사 단위로 접근 가능하게 만드는 기술적 토대를 제공한다. 핵심은 이미지의 각 픽셀에 ‘본문’, ‘제목’, ‘구분선’, ‘배경’ 등 의미 라벨을 부여하는 픽셀‑레벨 분류 모델이다. 저자는 전통적인 OCR 파이프라인에 앞서, 딥러닝 기반의 세그멘테이션 네트워크를 활용해 라벨링 정확도를 높였으며, 라벨링 결과를 바탕으로 수평·수직 구분선을 추출한다. 구분선 검출은 Hough 변환과 연결 요소 분석을 결합해 잡음에 강인하게 구현되었고, 이를 통해 페이지를 격자 형태의 블록으로 분할한다. 각 블록 내부에서는 텍스트 라인 검출 알고리즘이 적용되어, 라인 간 간격과 정렬 정보를 이용해 제목과 본문을 구분한다. 논리 구조는 METS(Metadata Encoding and Transmission Standard) 래퍼에 포함시켜 ALTO(Analyzed Layout and Text Object) 파일과 연동한다. 이렇게 구축된 메타데이터는 검색 엔진에 인덱싱되어 기사 수준의 키워드 검색을 가능하게 한다. 프론트엔드에서는 OpenSeadragon 기반의 고해상도 이미지 뷰어와, 기사 영역을 하이라이트하는 인터랙티브 UI를 제공한다. 또한, 사용자 협업을 통한 전사 교정 기능을 포함시켜, 교정된 텍스트가 자동으로 인덱스에 반영되도록 설계하였다. 실험은 ‘Journal de Rouen’ 1808년 호를 대상으로 수행했으며, 다양한 레이아웃 변형(다단, 삽화, 손상된 페이지)에도 높은 정확도의 기사 추출을 확인했다. 전체 파이프라인은 이미지 전처리 → 픽셀 레이블링 → 구분선·블록 검출 → 텍스트 라인·제목 구분 → 메타데이터 생성 → 검색·시각화 순으로 구성돼, 확장성과 재현성을 확보한다.