레거시 데이터의 숨은 보물, SPAR가 세션으로 찾아낸다
초록
기업의 방대한 레거시 파일 시스템은 체계적이지 않아 정보 검색과 분석이 매우 비효율적입니다. 기존 RAG(검색 증강 생성) 방식은 전체 파일 시스템을 복제한 대규모 벡터 데이터베이스를 구축·유지해야 하는 부담이 큽니다. 본 연구는 SPAR라는 새로운 개념적 프레임워크를 제안합니다. SPAR는 가벼운 메타데이터 인덱스를 먼저 만들고, 사용자 질의(세션)별로 필요한 파일만 동적으로 벡터 데이터베이스로 생성하는 2단계 방식을 사용합니다. 이를 통해 계산 오버헤드를 줄이면서 검색의 투명성, 제어 가능성, 관련성을 동시에 향상시킵니다. 이론적 복잡도 분석과 바이오메디컬 문헌 데이터를 이용한 실험을 통해 SPAR의 효율성과 효과성을 입증했습니다.
상세 분석
본 논문이 제안하는 SPAR 프레임워크의 기술적 핵심은 ‘정적 전역 지식베이스’에서 ‘동적 세션별 지식베이스’로의 패러다임 전환에 있습니다. 기존 RAG는 전체 코퍼스를 임베딩한 모놀리식 벡터 DB를 구축해야 하므로, 초기 구축 비용이 막대하고 데이터 동기화 문제가 항상 따라다닙니다. SPAR는 이 문제를 두 가지 계층적 추상화로 해결합니다.
첫 번째는 ‘의미론적 메타데이터 인덱스’입니다. 이는 파일 경로, 생성일, 확장자 등의 기본 메타데이터를 넘어, 기업이 정의한 태그(예: “2023년 재무제표”, “고객A 지원케이스”) 체계를 관계형 데이터베이스에 구조화하여 저장합니다. 태그는 계층 구조를 가질 수 있어 “재무” -> “분기별 보고서” -> “2023 Q2"와 같은 세밀한 필터링이 가능해집니다. 이 인덱스는 벡터 임베딩보다 훨씬 가볍고, 파일 시스템의 변화(추가/삭제/수정)에 실시간으로 업데이트하기 쉽습니다.
두 번째는 ‘세션 기반 온디맨드 벡터화’입니다. 사용자가 “2023년 2분기 매출 성장률을 요약해줘"라고 질의하면, SPAR는 먼저 메타데이터 인덱스를 검색하여 “2023”, “Q2”, “재무”, “보고서” 등의 태그와 매칭되는 파일군(X)을 추출합니다. 이후 이 특정 파일군(X)만을 임베딩하여 작은 규모의 임시 벡터 데이터베이스를 생성합니다. 이후의 RAG 검색은 이 작은 DB 내에서만 이루어지므로, 전체 DB를 검색할 때보다 정확도와 속도가 향상됩니다. 세션이 끝나면 이 임시 DB는 삭제되어 저장소 부담을 없앱니다.
핵심 통찰은 다음과 같습니다: 1) 모든 데이터를 항상 최고 정밀도(벡터)로 표현할 필요는 없다. 2) 메타데이터와 태그라는 ‘거친 지도(coarse map)‘를 먼저 이용해 검색 영역을 극적으로 좁힌 후, 해당 영역에만 고정밀도 분석(벡터 검색)을 적용하는 하이브리드 접근법이 효율적이다. 3) 이는 인간의 정보 탐색 과정(도서관 카탈로그 검색 후 해당 서가로 가서 책을 살펴보는 것)과 유사합니다.
저자의 이론적 복잡도 분석은 이점을 수치화합니다. 구축 비용 O(N)에서 O(M)으로 (N: 전체 파일 수, M: 메타데이터/태그 수, M«N), 동기화 비용 또한 글로벌 벡터 DB의 전체 재색인에서 메타데이터 인덱스의 부분 업데이트로 감소함을 보입니다. 실험에서도 바이오메디컬 데이터셋에 대해 SPAR가 전역 벡터 DB 기반 RAG보다 높은 검색 정확도와 하류 작업 성능을 기록했습니다. 그러나 태그 체계의 질이 시스템 성능을 좌우하는 키포인트라는 점, 그리고 태그 자동 할당을 위한 LLM 사용 시 발생할 수 있는 오류와 비용이 중요한 설계 트레이드오프로 지적되었습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기