멀티벡터 검색을 한 번에! LEMUR가 가져온 초고속 검색 혁신
초록
LEMUR는 멀티벡터 검색에서 발생하는 높은 연산 비용을 두 단계의 문제 변환으로 해결한다. 먼저 MaxSim 유사도 추정을 지도학습 문제로 바꾸어 1‑히든‑레이어 MLP를 학습하고, 두 번째 단계에서는 학습된 모델의 잠재 공간을 단일 벡터로 변환해 기존 ANNS 라이브러리를 그대로 활용한다. 이를 통해 ColBERT‑v2 등 최신 멀티벡터 임베딩에서도 기존 방법보다 10배 가량 빠른 검색 속도를 달성한다.
상세 분석
LEMUR가 제시하는 핵심 아이디어는 멀티벡터 검색을 “집합‑대‑집합” 유사도 계산에서 “벡터‑대‑벡터” 계산으로 전환한다는 점이다. 기존 ColBERT 계열 모델은 쿼리와 문서 각각의 토큰 임베딩을 모두 비교해 MaxSim( X , C ) = Σₓ∈X max_{c∈C} ⟨x,c⟩ 를 구한다. 토큰 수가 수백 개에 달하면 연산량이 기하급수적으로 늘어나 실시간 서비스에 부적합하다. LEMUR는 이 MaxSim을 f(X)=W·Ψ(X) 형태로 근사한다. 여기서 Ψ(X)=Π_{x∈X}ψ(x) 는 토큰 임베딩을 1‑히든‑레이어 MLP의 은닉층 ψ 로 매핑한 뒤 풀링(pooled)한 벡터이며, W∈ℝ^{m×d′} 의 각 행 w_j 가 문서 j 의 임베딩 역할을 한다. 따라서 쿼리와 모든 문서 간의 MaxSim 추정값은 단순히 내적 ⟨w_j, Ψ(X)⟩ 로 계산된다. 이 구조는 두 가지 중요한 장점을 만든다. 첫째, 지도학습으로 ψ와 W를 학습하면 토큰‑레벨의 복잡한 MaxSim 연산을 선형 회귀 형태로 단순화할 수 있다. 학습 목표는 다출력 회귀(Multi‑output regression)이며, 손실은 MSE로 정의한다. 둘째, 추론 단계에서는 Ψ(X) 하나만 계산하면 되며, 문서 임베딩 w_j 들은 사전에 고정된 행렬이므로 기존의 최대 내적 검색(MIPS) ANNS 엔진(Faiss, ScaNN 등)을 그대로 적용할 수 있다. 이는 메모리와 연산량을 크게 절감한다는 의미다.
학습 데이터 선택에 있어서 LEMUR는 별도의 라벨링된 쿼리 집합이 없어도 문서 자체를 쿼리 인코더(Q)로 재인코딩해 가상의 쿼리 집합을 만든다. 실험 결과, 실제 쿼리를 사용했을 때 약간의 성능 향상이 있긴 하지만, 문서‑기반 샘플링만으로도 기존 베이스라인을 꾸준히 앞선다. 이는 모델이 토큰‑레벨 특성을 잘 포착하고, 문서‑레벨 가중치 행렬 W 를 효과적으로 학습한다는 증거다.
또한 대규모 코퍼스에 대한 학습 확장성을 위해 두 단계의 사전학습 전략을 도입한다. 먼저 전체 문서 중 소수(m′≪m)를 선택해 g′(x)=max_{c∈C_i}⟨c,x⟩ 를 목표로 ψ를 사전학습한다. 이후 고정된 ψ에 대해 각 문서별 w_j 를 최소제곱법(OLS)으로 직접 구한다. 이 과정은 선형 회귀이므로 O(m·d′·n′) 복잡도에서 닫힌 형태 해를 얻을 수 있어 수천 문서를 초당 인덱싱하는 속도를 보인다.
성능 평가에서는 BEIR 벤치마크 6개 데이터셋에 대해 5가지 최신 텍스트 멀티벡터 모델(ColBERT‑v2, Jha2024, Chaffin2025 등)과 VidoRe 시각 문서 검색 데이터에 대해 2가지 비전 모델(ColPali, 기타)으로 실험했다. 모든 경우에서 LEMUR는 기존 토큰‑프루닝 기반 방법(PLAID, DESSERT, EMVB, IGP)보다 5‑10배 빠른 QPS를 기록했으며, 최종 재랭크 단계에서 정확도(R@10, R@100)도 동등하거나 약간 상회했다. 특히 MUVERA와 같은 단일 벡터 변환 방식이 고차원 FDE를 필요로 해 메모리 부담이 큰 반면, LEMUR는 d′=2048 정도의 중간 차원만으로도 충분히 높은 정확도를 유지한다.
요약하면, LEMUR는 (1) MaxSim을 선형 모델 형태로 근사하는 지도학습 프레임, (2) 학습된 잠재 공간을 단일 벡터 검색으로 매핑하는 두 단계 변환을 통해 멀티벡터 검색의 핵심 병목을 해소한다. 구현이 간단하고, 기존 ANNS 인프라와 바로 호환되며, 다양한 멀티벡터 모델에 적용 가능하다는 점에서 실무 적용 가치가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기