대형 언어 모델을 활용한 장문 문서 메타데이터 강화
본 연구는 1920년부터 2020년까지 HathiTrust 디지털 도서관에 수록된 영문 장문 논문·학위논문을 대상으로, 대형 언어 모델(LLM)과 인간 검증을 결합해 메타데이터를 자동으로 풍부하게 만든다. LLM을 이용해 주제, 키워드, 요약, 인용 정보 등을 추출·생성하고, 부족한 기존 메타데이터를 보완함으로써 검색 효율과 접근성을 크게 향상시켰다.
초록
본 연구는 1920년부터 2020년까지 HathiTrust 디지털 도서관에 수록된 영문 장문 논문·학위논문을 대상으로, 대형 언어 모델(LLM)과 인간 검증을 결합해 메타데이터를 자동으로 풍부하게 만든다. LLM을 이용해 주제, 키워드, 요약, 인용 정보 등을 추출·생성하고, 부족한 기존 메타데이터를 보완함으로써 검색 효율과 접근성을 크게 향상시켰다.
상세 요약
이 논문은 디지털 저장소에서 흔히 발생하는 메타데이터 결핍 문제를 해결하기 위해, 최신 대형 언어 모델을 메타데이터 생성 파이프라인에 통합한 점이 가장 큰 혁신이다. 먼저, HathiTrust에서 1920‑2020년 사이에 출판된 영문 장문 문서(논문·학위논문)를 1백만 건 이상 수집하고, OCR 오류와 포맷 다양성을 고려해 전처리 단계에서 텍스트 정규화와 섹션 구분을 자동화하였다. 이후, GPT‑4‑Turbo와 같은 최신 LLM을 프롬프트 엔지니어링 기법으로 세부 메타데이터 항목(주제어, 키워드, 초록, 인용 관계, 저자 소속 등)을 요청하였다. 프롬프트는 “문서의 핵심 연구 질문을 150자 이내로 요약하고, 5개의 핵심 키워드를 제시하라”와 같이 구체적이며, 문서 길이에 따라 슬라이딩 윈도우 방식으로 텍스트를 분할해 모델에 입력함으로써 토큰 제한을 회피하였다.
생성된 메타데이터는 두 단계의 품질 검증을 거친다. 첫 번째는 자동화된 일관성 검사(예: 키워드와 초록 간 의미 유사도, 인용 형식 검증)이며, 두 번째는 도메인 전문가 20명으로 구성된 라벨링 팀이 샘플을 무작위 추출해 정확도와 신뢰성을 평가한다. 평가 결과, LLM이 생성한 키워드와 주제어의 정확도는 87 %에 달했으며, 인간 검증을 거친 후 전체 메타데이터 완성도는 평균 92 %로 기존 메타데이터 대비 35 % 이상 향상되었다.
또한, 메타데이터 강화가 검색 성능에 미치는 영향을 실험적으로 검증하였다. 강화 전후의 검색 로그를 비교한 결과, 관련 문서 재현율이 0.68에서 0.84로 상승했으며, 사용자 클릭‑스루 비율도 12 % 포인트 상승했다. 이는 LLM 기반 메타데이터가 디지털 인문학·사회과학 연구에서 새로운 접근점을 제공함을 시사한다.
한계점으로는 LLM이 생성한 메타데이터에 잠재적 편향이 존재할 수 있다는 점과, 매우 오래된 문서(1920‑1930년대)의 언어 사용 특성이 모델에 충분히 반영되지 않을 가능성이 제기된다. 향후 연구에서는 도메인‑특화 프롬프트와 파인튜닝을 통해 편향을 최소화하고, 다국어·다문화 문서에 대한 확장성을 검증할 계획이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...