스트리밍 추천을 위한 차세대 아이템 인덱싱 MERGE

스트리밍 추천을 위한 차세대 아이템 인덱싱 MERGE
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MERGE는 실시간 스트리밍 환경에서 아이템 분포의 급격한 변화와 긴 꼬리 현상을 해결하기 위해, 사전 정의된 클러스터 수에 의존하지 않고 데이터를 기반으로 클러스터를 동적으로 생성·조정한다. EMA 기반 클러스터 업데이트, Union‑Find 기반 신규 클러스터 형성, 실시간 점유율 모니터링, 그리고 Fine‑to‑Coarse 병합을 통한 계층적 인덱스를 제공함으로써 기존 VQ 방식의 정확도·균형·분리 문제를 크게 개선한다. 오프라인 실험과 온라인 A/B 테스트에서 할당 정확도, 클러스터 균일성, 비즈니스 지표 모두 현저히 상승하였다.

상세 분석

본 논문은 대규모 스트리밍 추천 시스템에서 아이템 인덱싱이 직면하는 세 가지 근본적 문제—정확도(assignment accuracy), 균일성(cluster uniformity), 분리도(cluster separation)—를 명확히 규정하고, 기존 Vector Quantization(VQ) 기반 방법이 이러한 문제에 구조적으로 취약함을 실증한다. VQ는 고정된 코드북 크기와 정적 클러스터 중심을 전제로 하여, 급변하는 아이템 분포와 긴 꼬리 현상에 적응하지 못한다. 특히, 평균 코사인 유사도가 0.6에 머물고, 클러스터 점유율이 수십 배 차이 나며, 클러스터 간 평균 유사도가 0.5 이상인 상황은 검색 정확도 저하와 학습 불안정을 초래한다.

MERGE는 이러한 한계를 극복하기 위해 “클러스터를 처음부터 동적으로 생성한다”는 설계 철학을 채택한다. 핵심 메커니즘은 네 단계로 구성된다. ① 동적 클러스터 구축: 배치 단위로 들어오는 아이템 임베딩(64‑dimensional collaborative embedding)을 기존 코드북과 코사인 유사도로 매칭한다. 매칭 점수가 사전 정의된 임계값 τ 이상이면 해당 클러스터의 EMA(Exponential Moving Average) 변수 S_k(임베딩 합)와 N_k(카운트)를 업데이트하고, 새로운 중심 q_k = S_k / N_k 로 재계산한다. EMA 감쇠 계수 γ=0.99를 사용해 최신 데이터에 민감하면서도 급격한 변동을 완화한다.

매칭 실패 아이템 처리: τ 미만으로 매칭에 실패한 아이템 집합 B⁻에 대해 Union‑Find 알고리즘을 적용한다. 아이템 간 유사도가 τ′ 이상이면 연결하고, 연결된 컴포넌트를 클러스터로 형성한다. 이렇게 형성된 클러스터는 평균 풀링을 통해 임베딩 u 로 요약되며, 사전 정의된 최소 크기 m을 만족하는 경우에만 유효 클러스터(U_valid)로 인정한다.

점유율 모니터링 및 재설정: 각 클러스터의 현재 점유량을 실시간으로 추적한다. 점유율이 상한을 초과하거나 하한에 미치지 못하면 해당 클러스터를 0 벡터로 초기화하거나 폐기한다. 이는 긴 꼬리 아이템이 과도하게 한 클러스터에 몰리는 현상을 방지하고, 전체 코드북이 일정한 균형을 유지하도록 돕는다.

Fine‑to‑Coarse 병합: 단일 레벨 코드북(Q)에서 얻은 수천 개의 미세 클러스터를 다시 클러스터링하여 코스 레벨 코드북을 만든다. 이 과정은 동일한 EMA‑기반 업데이트와 Union‑Find 절차를 재귀적으로 적용해 계층적 인덱스를 형성한다. 결과적으로 검색 단계에서는 코스 레벨 인덱스로 후보군을 빠르게 필터링하고, 파인 레벨 인덱스로 정밀 매칭을 수행한다.

실험에서는 공개 데이터와 사내 대규모 로그 데이터를 활용해 기존 StreamingVQ, Trinity 등과 비교하였다. MERGE는 평균 코사인 유사도 0.78(기존 0.60)로 정확도가 크게 상승했고, 클러스터 점유율의 표준편차가 1/5 수준으로 감소해 균일성이 개선되었다. 또한 클러스터 간 평균 유사도가 0.32로 낮아 분리도가 향상되었다. 온라인 A/B 테스트에서는 클릭‑스루‑레이트(CTR)와 전환율(CVR)이 각각 4.3%·3.7% 상승했으며, 시스템 레이턴시는 12% 감소하는 등 비즈니스 지표 전반에 긍정적 영향을 미쳤다.

MERGE의 장점은 (1) 사전 클러스터 수를 지정할 필요가 없어 스트리밍 환경에 자연스럽게 적응한다, (2) EMA와 Union‑Find를 결합한 경량 업데이트로 실시간 처리 비용이 낮다, (3) 점유율 모니터링을 통해 클러스터 불균형을 자동 교정한다, (4) 계층적 구조가 검색 효율성을 동시에 확보한다는 점이다. 한계로는 임계값 τ, τ′, m, γ 등 하이퍼파라미터 튜닝이 필요하고, 매우 고차원 임베딩(>256)에서는 Union‑Find의 pairwise 연산 비용이 증가할 수 있다. 향후 연구에서는 자동 파라미터 최적화와 GPU‑가속 Union‑Find 구현을 통해 확장성을 더욱 강화할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기