갓티 전시 기록을 위한 자연어 검색·요약 RAG 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 Getty Provenance Index(GPI) 독일 판매 데이터에 RAG(Retrieval‑Augmented Generation) 프레임워크를 적용해, 자연어·다국어 질의와 의미 기반 검색, 자동 요약을 가능하게 한다. 10 000·100 000 레코드 샘플을 이용해 임베딩·FAISS·GPT‑4o 기반 파이프라인을 평가했으며, 메타데이터 의존도를 낮추고 탐색적 검색 효율을 크게 향상시켰음을 보였다.

상세 분석

이 논문은 미술 사료 연구에서 가장 큰 장애물 중 하나인 파편화·다언어화된 경매 카탈로그 데이터를 ‘의미 기반’ 검색과 ‘생성 요약’으로 통합하는 RAG 파이프라인을 설계·평가한다. 먼저 텍스트 임베딩 단계에서 OpenAI text‑embedding‑3‑large 모델을 사용해 레코드 전체(본문 + 핵심 메타데이터)를 고차원 벡터화하고, 이를 FAISS(HNSW/IVF) 인덱스로 저장한다. 이 과정에서 메타데이터를 원문에 삽입해 의미적 연결성을 강화함으로써, 전통적인 키워드 매칭이 놓치는 미세한 표현 차이를 포착한다. 검색 단계에서는 사용자가 한국어·영어·독일어 등 자유로운 자연어 질의를 입력하면, 동일 임베딩 모델로 질의를 벡터화하고 최근접 이웃을 추출한다. 추출된 후보 레코드(보통 상위 k=10~20)는 두 번째 단계인 ‘생성’으로 넘어가 GPT‑4o에게 전달되며, 각 레코드에 대한 요약·핵심 내용·연관성 설명을 생성한다. 여기서 중요한 점은 요약이 ‘답변’이 아니라 ‘전문가 검증용 설명’이라는 점이다. 즉, 시스템은 검증 가능한 근거와 출처를 함께 제공해 투명성을 확보한다.

평가에서는 10 000 레코드와 100 000 레코드 두 규모에서 100개의 실제 도메인 전문가 질의(예: “1930년대 독일에서 가족·사회 활동을 묘사한 회화” 등)를 사용해 정밀도·재현율·인간 검증 점수를 측정했다. 기본 RAG(Naïve)와 고급 RAG(재랭킹 모델 bge‑reranker‑v2‑m3 적용) 간 차이를 비교했으며, 재랭킹을 도입했을 때 상위 5개 결과의 전문가 적합도 점수가 평균 0.78→0.84로 상승했다. 또한 다국어 질의 실험에서 독일어 원문이 포함된 레코드가 영어·한국어 질의에서도 70 % 이상 회수되는 등 의미 기반 확장이 효과적임을 확인했다.

논문은 또한 경매 카탈로그 특유의 ‘전보식’ 서술, 다양한 단위·표기법, 약어·불완전한 날짜 표현 등 전통 IR이 어려워하는 문제들을 상세히 기술한다. 이러한 특성을 극복하기 위해 메타데이터를 텍스트에 삽입하고, 임베딩 단계에서 문맥을 보존하도록 프롬프트 엔지니어링을 수행했으며, 재랭킹 단계에서 메타데이터 필터링 옵션을 제공해 사용자가 필요에 따라 ‘정밀 검색’과 ‘탐색적 검색’을 전환할 수 있게 했다.

제한점으로는 현재 폐쇄형 LLM(GPT‑4o)과 임베딩 서비스를 사용하고 있어 비용·접근성 문제가 존재하고, 오픈소스 모델로 전환 시 성능 격차를 정량화하지 못한 점을 들었다. 향후 연구에서는 완전 오픈소스 파이프라인 구축, 다중 모달(이미지·텍스트) 통합, 그리고 다른 LLM·임베딩 모델 간 교차 벤치마크를 계획하고 있다. 전체적으로 이 연구는 문화유산 분야에서 RAG가 메타데이터 의존성을 낮추고, 전문가 검증 가능한 투명한 검색·요약을 제공함으로써, 나치 시대 회수·법적 청구 등 민감한 provenance 연구에 실용적인 도구가 될 가능성을 입증한다.

갓티 전시 기록을 위한 자연어 검색·요약 RAG 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기