역사적 약물 논쟁 연구를 위한 레벨드 접근법과 텍스트 마이닝 도구 평가

초록

본 논문은 네덜란드 왕립 도서관 디지털 신문 아카이브를 대상으로 약물에 대한 공공 인식을 탐색하기 위해 ‘레벨드 접근법’을 제시한다. 이 방법은 원거리 독서(distant reading)와 근거리 독서(close reading)를 번갈아 가며 적용한다. 연구 과정에서 두 텍스트 마이닝 도구인 AVResearcherXL과 Texcavator를 활용하고, 각각의 기능, 사용성, 분석 정확도 등을 비교 평가한다. 결과적으로 레벨드 접근법이 대규모 텍스트 데이터의 초기 탐색과 심층 해석을 효율적으로 연결해 주며, 두 도구는 상호 보완적인 강점을 지니지만 데이터 시각화와 인터페이스 측면에서 차이가 있음을 확인한다.

상세 요약

이 논문은 디지털 인문학 연구에서 흔히 겪는 ‘대규모 텍스트와 인간 해석 사이의 간극’을 메우기 위한 방법론적 틀을 제시한다. 레벨드 접근법은 크게 네 단계로 구성된다. 첫 번째 레벨에서는 AVResearcherXL과 Texcavator를 이용해 키워드 기반 검색, 빈도 분석, 시계열 그래프 등을 통해 전체 코퍼스의 거시적 흐름을 파악한다. 여기서 얻은 통계적 패턴은 두 번째 레벨에서 선택된 샘플 텍스트를 대상으로 근거리 독서를 수행함으로써 의미론적·맥락적 해석을 보강한다. 세 번째 레벨에서는 초기 원거리 독서 결과를 재조정하기 위해 새로운 검색어를 도출하고, 네 번째 레벨에서는 재구성된 검색어 집합을 다시 원거리 독서에 투입해 반복적인 피드백 루프를 만든다. 이러한 순환 구조는 연구자가 초기 가설을 검증하고, 필요에 따라 가설을 수정하며, 최종적으로는 풍부한 서사적 결론에 도달하도록 설계되었다.

도구 평가 측면에서 AVResearcherXL은 대용량 데이터베이스에 대한 빠른 쿼리 처리와 상세한 메타데이터 필터링 기능이 강점이다. 특히 연도, 출판사, 지역별로 데이터를 세분화할 수 있어 시계열 분석에 유리하다. 그러나 인터페이스가 다소 복잡하고, 시각화 옵션이 제한적이며, 사용자 정의 스크립트 삽입이 어려워 고급 분석에 제약이 있다. 반면 Texcavator는 직관적인 대시보드와 인터랙티브 워드클라우드, 네트워크 그래프 등을 제공해 비전문가도 손쉽게 탐색할 수 있다. 하지만 검색어 확장 기능이 제한적이며, 데이터베이스 연결 속도가 느려 대규모 코퍼스에서는 응답 시간이 길어지는 단점이 있다.

연구 사례에서는 19세기 말부터 20세기 초까지 네덜란드 신문에서 ‘마약’, ‘코카인’, ‘헤로인’ 등 약물 관련 용어의 등장 빈도와 기사 맥락을 분석했다. 원거리 독서 단계에서 두 용어가 1920년대에 급증하는 패턴을 발견했으며, 근거리 독서 단계에서는 당시 신문이 약물 문제를 ‘도시 빈곤’, ‘공공 보건’ 그리고 ‘법률 제정’이라는 사회적 이슈와 연결해 보도했음을 확인했다. 이러한 다층적 분석은 단순 빈도 분석만으로는 포착하기 어려운 문화적·정책적 변화를 드러내는 데 기여한다.

결론적으로 레벨드 접근법은 텍스트 마이닝 도구의 기술적 한계를 인간 독해의 해석력으로 보완하며, 두 도구의 상호 보완적 사용이 연구 효율성을 크게 향상시킨다. 또한, 도구 선택 시 연구 목적에 따라 ‘정밀도와 속도’를 중시할지, ‘시각화와 인터랙티브성’에 무게를 둘지를 명확히 구분할 필요가 있음을 강조한다.

초록

상세 요약

📜 논문 원문 (영문)