하버드 도서 컬렉션 1점0 2420억 토큰 공개 데이터셋
본 보고서는 하버드 도서관이 구글 북스 프로젝트와 협업해 디지털화한 1,075,899권 중 공개 도메인으로 확인된 983,004권, 약 2420억 토큰 규모의 텍스트와 풍부한 메타데이터를 정제·문서화한 Institutional Books 1.0 데이터셋을 소개한다. OCR 원본과 후처리본, 언어별 토큰 통계, 저작권 상태 검증 과정을 상세히 기술하며, 연구
초록
본 보고서는 하버드 도서관이 구글 북스 프로젝트와 협업해 디지털화한 1,075,899권 중 공개 도메인으로 확인된 983,004권, 약 2420억 토큰 규모의 텍스트와 풍부한 메타데이터를 정제·문서화한 Institutional Books 1.0 데이터셋을 소개한다. OCR 원본과 후처리본, 언어별 토큰 통계, 저작권 상태 검증 과정을 상세히 기술하며, 연구·학습용 데이터의 투명성·재현성을 높이는 방안을 제시한다.
상세 요약
Institutional Books 1.0은 하버드 도서관이 2006년부터 구글 북스와 공동 진행한 대규모 스캔 프로젝트의 원시 자료를 기반으로 한다. 전체 1,075,899권은 250여 개 언어로 구성돼 약 2500억 토큰에 달했으며, 이 중 저작권이 소멸된 것으로 판단된 983,004권을 선별해 2420억 토큰을 공개한다. 데이터 정제 파이프라인은 크게 세 단계로 나뉜다. 첫 번째 단계는 메타데이터 수집으로, MARC 레코드, 구글 북스 API, 그리고 하버드 내부 카탈로그를 교차 매칭해 ISBN, 출판연도, 저자, 언어 등 구조화된 정보를 확보한다. 두 번째 단계는 OCR 텍스트 추출 및 품질 평가이다. 구글의 Tesseract 기반 OCR 엔진으로 얻은 원본 텍스트는 문자 인식 오류, 페이지 레이아웃 손실, 그리고 스캔 품질에 따른 잡음이 존재한다. 이를 보완하기 위해 사전 학습된 언어 모델을 활용한 맞춤형 정규화 스크립트를 적용해 문장 경계 복구, 비표준 문자 교정, 그리고 불필요한 헤더·푸터 제거를 수행한다. 세 번째 단계는 공개 도메인 검증으로, 저작권 만료 연도와 국가별 저작권 법규를 데이터베이스화해 자동 필터링하고, 의심 사례는 인력 검토를 거쳐 최종 확정한다. 결과적으로 각 언어별 토큰 분포, 연도별 출판량, 그리고 장르별 비중을 포함한 상세 통계가 제공된다. 데이터셋은 원본 OCR 텍스트와 후처리된 정제본을 별도 파일로 제공함으로써 연구자가 필요에 따라 선택적으로 활용할 수 있다. 또한, 메타데이터는 JSONL 형식으로 저장돼 각 레코드가 독립적으로 파싱 가능하도록 설계돼 있다. 이와 같은 투명한 파이프라인 공개는 데이터 재현성을 보장하고, 향후 다른 기관이 유사 프로젝트를 수행할 때 베이스라인으로 활용될 수 있다. 기술적 한계로는 OCR 정확도가 언어별로 크게 차이 나는 점, 특히 라틴 알파벳 외의 스크립트(예: 아라비아어, 히브리어, 한자)에서 높은 오류율이 관찰된다는 점이다. 또한, 저작권 검증 과정에서 국가별 법적 차이를 완벽히 반영하기 어려워 일부 오분류 가능성이 존재한다. 이러한 제약을 감안할 때, 데이터셋은 학술 연구, 역사 텍스트 분석, 그리고 LLM 사전 학습용 고품질 코퍼스로 활용될 수 있지만, 민감한 상업적 목적에는 추가적인 법적 검토가 필요하다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...