프로젝션과 양자화의 완벽한 결합, MRQ로 구현하는 유연한 근사 k‑최근접 검색
초록
본 논문은 고차원 임베딩을 PCA 등 정보 보존 투영으로 저차원으로 압축한 뒤, 정보가 집중된 주축 차원만을 가변 비트 길이로 양자화하고, 남은 잔차 차원은 통계 요약으로 처리하는 MRQ(Minimized Residual Quantization) 방식을 제안한다. 이를 통해 기존 차원별 양자화가 갖는 고정 압축 비율 제한을 해소하고, 코드 길이를 자유롭게 조정하면서도 3배 가량 빠른 검색 속도와 1/3 수준의 비트 사용량으로 동일 수준의 정확도를 달성한다.
상세 분석
MRQ는 기존 양자화 기법의 두 가지 근본적인 한계를 동시에 해결한다. 첫 번째는 코드북 기반 양자화가 테이블 조회와 랜덤 메모리 접근에 의존해 SIMD 가속에 한계가 있다는 점이다. 두 번째는 차원별 양자화가 원본 차원 수와 코드 길이를 동일하게 맞춰야 하므로 압축 비율을 자유롭게 조정할 수 없다는 점이다. 저자들은 고차원 임베딩에 PCA와 같은 선형 투영을 적용하면 분산이 급격히 감소하는 ‘롱테일’ 형태의 분산 분포가 나타난다는 실험적 관찰을 기반으로, 정보가 집중된 상위 d 차원(예: 512차원)만을 선택적으로 양자화하고, 나머지 잔차 차원은 평균·분산 등 경량 통계량으로 대체한다. 이렇게 하면 양자화 비트 수를 사용자가 원하는 만큼 줄일 수 있어 메모리 사용량과 연산량을 크게 감소시킨다.
양자화 단계에서는 기존 RabitQ와 유사한 비편향 추정기를 사용하지만, 비트 길이를 자유롭게 설정할 수 있도록 설계되었다. 잔차 차원에 대한 통계는 거리 계산 시 오차 상한을 제공함으로써, 초기 단계에서는 빠른 근사 거리만을 사용하고 필요 시 재정렬 단계에서 보다 정밀한 거리(투영 원본 벡터 사용)와 잔차 통계 기반 보정값을 결합한다. 이 다단계 거리 계산 프레임워크는 IVF 인덱스와 자연스럽게 결합되어 캐시 친화적인 메모리 레이아웃을 구현하고, 인덱스 구축 시간을 크게 단축한다.
실험에서는 텍스트(OpenAI‑1536), 이미지(DEEP) 등 다양한 대규모 데이터셋에 대해 HNSW 그래프 기반 검색과 기존 양자화 기반 방법(RabitQ, PQ 등)을 비교하였다. 압축 비율을 1/3 수준으로 낮추면서도 Recall@10이 0.95 이상 유지되었고, 전체 검색 시간은 기존 방법 대비 평균 2.8배 가량 빨라졌다. 특히 SIMD‑int8 및 POPCNT 연산을 활용한 차원별 양자화의 장점을 그대로 살리면서도 코드 길이를 자유롭게 조절할 수 있다는 점이 실용성을 크게 높인다.
요약하면, MRQ는 (1) 투영을 통해 정보가 밀집된 차원을 식별, (2) 해당 차원만을 가변 비트 길이로 양자화, (3) 잔차 차원을 통계 요약으로 대체하여 오차 상한을 제공, (4) 다단계 거리 계산으로 정확도와 효율성을 균형 있게 유지한다는 혁신적인 설계를 제시한다. 이는 대규모 벡터 데이터베이스에서 메모리 비용을 크게 절감하면서도 실시간 검색 성능을 확보하고자 하는 실무 환경에 직접적인 영향을 미칠 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기