식민지 버지니아 토지 특허 지리좌표 추정에 대한 대형 언어 모델 벤치마크
초록
본 연구는 1695‑1732년 사이의 버지니아 식민지 토지 특허 5,471건 중 43건을 정밀 검증된 좌표와 비교하여 최신 OpenAI 대형 언어 모델(LLM)의 지리좌표 추정 성능을 평가한다. 직접 좌표 예측과 도구‑보강 체인‑오브‑생각 두 가지 프롬프트 방식을 시험했으며, o3‑2025‑04‑16 모델이 평균 오류 23 km(중앙값 14 km)로 최고 성능을 보였다. 5회 호출 앙상블은 평균 19.2 km까지 오류를 감소시켰고, 비용 대비 정확도 면에서 인간 GIS 분석가와 기존 geoparser들을 크게 앞섰다. 도구 연동은 정확도 향상에 기여하지 않았으며, 특허인 이름을 가려도 오류가 약 7 % 증가하는 수준에 머물렀다.
상세 분석
이 논문은 식민지 시대 메타‑앤드‑바운드(met‑es‑and‑bounds) 서술을 현대 GIS 데이터와 연결하는 데 있어, 대형 언어 모델(LLM)의 실용성을 체계적으로 검증한다는 점에서 학문적 의의가 크다. 먼저 5,471건의 원문을 디지털화하고, 43건을 무작위 추출해 GIS 전문가가 만든 다각형을 기반으로 정확한 위도·경도 쌍을 제공함으로써, 평가용 벤치마크를 구축했다. 이는 기존 역사 GIS 연구에서 흔히 겪는 ‘라벨 부족’ 문제를 해결한 사례라 할 수 있다.
모델 선정은 OpenAI의 최신 아키텍처를 중심으로 o‑시리즈, GPT‑4‑클래스, GPT‑3.5 세 부류를 각각 두 개씩 총 여섯 모델을 포함한다. 두 가지 프롬프트 전략—(1) 단일 호출로 직접 좌표를 출력하는 ‘direct‑to‑coordinate’, (2) 체인‑오브‑생각 과정 중 외부 지오코딩 API를 호출하는 ‘tool‑augmented’—을 적용해 성능 차이를 비교했다. 결과는 도구 연동이 오히려 정확도 향상에 기여하지 못했으며, 순수 텍스트 기반 추론이 더 높은 정확도를 보였다는 점에서, LLM 자체가 충분히 공간적 추론 능력을 내재하고 있음을 시사한다.
정량적 평가에서는 평균 오류(mean error)와 중앙값(median error) 외에도 95 % 부트스트랩 신뢰구간, 누적 오류 곡선, 비용·지연 시간 파레토 프론티어 등을 제시해 다차원적 비교를 수행했다. o3‑2025‑04‑16 모델은 평균 23 km, 중앙값 14 km로 가장 우수했으며, 전체 LLM 평균 37.4 km 대비 37.5 % 개선을 달성했다. 가장 낮은 성능을 보인 모델은 50.3 km 오류였으며, 이는 최상위 모델보다 53.5 % 높은 오차를 나타낸다. 인간 GIS 분석가가 만든 파이프라인은 평균 70 km 수준으로, LLM이 비용 대비 2배 이상 정확도를 제공함을 확인했다. 또한 Stanford NER 기반 GeoText와 Mordecai‑3는 각각 평균 71 km, 68 km 정도의 오류를 보이며, 전통적인 규칙·신경망 기반 geoparser가 복잡한 식민지 서술에 한계를 드러냈다.
비용 분석에서는 모델 호출당 토큰 비용과 전체 추론 비용을 산출했다. 가장 효율적인 gpt‑4o‑2024‑08‑06 모델은 1,000건당 1.09 USD의 비용으로 평균 28 km 오류를 기록했으며, 이는 고성능 모델 대비 약 3배 저렴하면서도 실용적인 정확도를 제공한다. 5회 호출 앙상블은 추가 비용이 0.20 USD 수준에 머물면서 평균 오류를 19.2 km로 낮추어, 비용·정확도 트레이드오프를 최적화한다.
특히 특허인 이름을 마스킹한 실험에서는 오류가 약 7 % 상승했으며, 이는 모델이 지명·인접 설명에 크게 의존한다는 증거다. 즉, LLM이 과거 지명에 대한 메모리보다는 텍스트 내 서술적 단서(예: 강, 길, 인접 토지)에 기반해 좌표를 추정한다는 점을 확인했다. 이는 모델이 과거 데이터에 과도하게 의존하지 않으며, 새로운 혹은 변형된 서술에도 일반화 가능함을 의미한다.
전체적으로 이 연구는 (1) 역사 GIS 분야에 고품질, 재현 가능한 벤치마크 데이터를 제공하고, (2) 최신 LLM이 복잡한 메타‑앤드‑바운드 서술을 자동으로 지리좌표로 변환할 수 있음을 실증하며, (3) 비용·시간 효율성 면에서 전통적인 인간 작업과 기존 geoparser를 크게 앞선다는 점을 입증한다. 향후 연구에서는 파인튜닝, 다중언어 모델 적용, 그리고 보다 정교한 도구‑연동 프레임워크(예: 벡터 데이터베이스 기반 근접 검색) 등을 통해 정확도를 추가로 향상시킬 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기