역사 속 잉크: 19세기 라틴아메리카 신문, AI로 되살리다

이 연구는 19세기 라틴아메리카 스페인어 신문으로 구성된 새로운 디지털 코퍼스 'LatamXIX'를 발표하며, 역사적·언어학적 분석을 위한 중요한 자료 격차를 해소했습니다. 동시에 대형 언어 모델(LLM)을 활용해 OCR 오류를 수정하고 역사적 언어의 표면 형태를 감지하는 유연한 반자동화 프레임워크를 개발하여, 해당 데이터셋에 적용하고 그 방법론을 제시합니다.

저자: Laura Manrique-Gómez, Tony Montes, Arturo Rodríguez-Herrera

역사 속 잉크: 19세기 라틴아메리카 신문, AI로 되살리다
이 논문은 디지털 인문학, 특히 라틴아메리카 역사 연구의 자료 부족 문제를 해결하기 위한 두 가지 주요 기여를 제시합니다. 첫째, 19세기 라틴아메리카 스페인어 신문으로 구성된 방대한 디지털 코퍼스 'LatamXIX'를 구축하여 공개했습니다. 기존의 'Chronicling America'나 유럽 중심 프로젝트와 달리 글로벌 사우스 지역의 역사 신문은 디지털화가 매우 부족한 실정이었습니다. 연구팀은 콜롬비아를 시작으로 멕시코, 아르헨티나, 페루, 칠레 등 10개국 이상의 디지털 아카이브를 조사하여 최종적으로 197개 신문 제목, 23,522페이지 분량의 스캔 이미지를 수집했습니다. 이 이미지들은 레이아웃 인식 모델(이미지와 텍스트 영역 분류)과 OCR을 결합한 사용자 정의 파이프라인을 통해 텍스트로 추출되었습니다. 초기 품질 검사에서는 약 8.5%가 읽을 수 없었으며, 나머지도 인쇄 상태와 시대적 맞춤법으로 인해 많은 오류를 포함하고 있었습니다. 둘째, 추출된 텍스트의 품질을 향상시키기 위해 LLM 기반의 OCR 후처리 수정 프레임워크를 개발했습니다. 이 프레임워크의 핵심은 GPT-4o-mini와 같은 LLM을 이용해 텍스트를 수정한 후, 원본과 수정본 간의 차이를 'diff' 알고리즘으로 정밀하게 비교·추출하는 것입니다. 이를 통해 LLM이 특정 형식으로 출력하도록 강제할 때 발생하는 변동성을 줄이고, 수정 사항만을 깔끔하게 분리해낼 수 있었습니다. 추출된 각 수정 사항은 미리 정의된 규칙 세트에 따라 세 가지 범주로 분류됩니다: 1) **OCR 오류**: 스캔 품질, 인쇄 마모로 인한 실제 잘못 인식(예: 'señor' -> 'sefor'). 2) **표면 형태**: 19세기 스페인어의 역사적 맞춤법이나 언어적 변이(예: 'y'를 'i'로 표기, 악센트 사용 차이). 이는 오류가 아닌 시대의 언어 특징으로, 언어학적 분석에 중요합니다. 3) **환각(Hallucination)**: LLM이 생성한 잘못된 수정이나 현대어로의 불필요한 번역. 이 분류 체계는 인간 전문가(역사 언어학자)의 검증을 통해 구체적인 규칙(예: 악센트 변경은 표면 형태, 동일 길이 글자 치환은 OCR 오류)으로 정제되었습니다. 이 과정을 통해 'LatamXIX' 데이터셋의 세 가지 버전(원본, 정제됨, 수정됨)과 함께 19세기 스페인어의 표면 형태 목록이 생성되었습니다. 최종 수정된 데이터셋은 약 2200만 단어를 포함하며, LLM은 총 83만 개의 수정을 제안했으나 그 중 78%는 환각으로, 실제 OCR 오류 수정은 12%에 불과했습니다. 이 결과는 역사 텍스트 처리에서 LLM의 맹목적 사용의 위험성과 인간 감독의 필요성을 강력히 시사합니다. 또한, 클라우드 LLM의 콘텐츠 필터링 정책으로 인해 일부 역사 자료(폭력적, 성적 내용 포함)가 처리에서 배제된 점도 실용적 도전과제로 지적됩니다. 결론적으로, 이 연구는 가치 있지만 접근하기 어려웠던 라틴아메리카 역사 자료를 학계에 제공함과 동시에, LLM을 활용한 역사 텍스트 처리 방법론에 대한 유연하고 재현 가능한 청사진을 제시했습니다. 이 프레임워크는 다른 언어나 시대의 문서에도 적용 가능하며, 디지털 인문학과 컴퓨터 과학의 성공적인 협업 모델을 보여줍니다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기