QARM V2: 대규모 멀티모달 추천을 위한 정량적 정렬과 사용자 시퀀스 추론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

QARM V2는 대형 언어 모델(LLM)의 풍부한 의미 이해를 산업용 추천 시스템에 맞게 정렬한다. GSU 단계에서는 LLM 기반 아이템 정렬 메커니즘으로 비즈니스 목적에 부합하는 임베딩을 생성하고, ESU 단계에서는 Residual K‑means와 Finite Scalar Quantization을 결합한 Res‑KmeansFSQ를 통해 충돌이 적은 다중 레벨 Semantic ID를 만들며, 이를 엔드‑투‑엔드 학습에 활용한다. 실제 Kuaishou 플랫폼에서 오프라인 실험과 온라인 A/B 테스트를 통해 클릭률·전환율 등 주요 지표가 크게 향상된 것을 입증한다.

상세 분석

본 논문은 전통적인 ID‑기반 임베딩이 갖는 정보 밀도 저하, 지식 고립, 일반화 한계라는 세 가지 근본적인 문제를 명확히 짚어낸다. 특히 GSU‑ESU 이중 단계 구조에서 두 단계 모두 ID 임베딩에 의존함으로써 발생하는 ‘Representation‑Unmatch’와 ‘Representation‑Unlearning’ 현상을 구체적인 사례(예: 세제와 소스의 외형 유사성)와 함께 설명한다. QARM V2는 이러한 문제를 해결하기 위해 두 가지 핵심 모듈을 제안한다. 첫 번째는 ‘Reasoning Item Alignment’ 메커니즘으로, 기존 RecSys가 추출한 Item2Item·User2Item 쌍을 LLM에게 전달해 세계 지식 기반의 논리적 연관성을 판단하게 한다. 여기서 LLM은 세 개의 입력 세그먼트(아이템 타이틀·속성, 질문‑답변 생성, 대조 학습)를 동시에 학습함으로써 비즈니스 시나리오에 맞는 임베딩을 생성한다. 두 번째는 ‘Res‑KmeansFSQ’ 양자화 기법이다. 기존 Res‑Kmeans는 데이터가 장-tail 분포를 가질 때 코드북 충돌이 빈번해지는 문제를 갖는데, 이를 보완하기 위해 마지막 레벨에 FSQ를 적용해 균일한 그리드 양자화를 수행한다. 이렇게 얻어진 다중 레벨 Semantic ID는 이산형이면서도 학습 가능한 특징으로, ESU 단계에서 정교한 사용자 관심을 압축·전달한다. 실험에서는 쇼핑, 광고, 라이브 스트리밍 등 서로 다른 도메인에서 0.8%~2.3% 수준의 CTR 상승과 1.5%~3.1%의 전환율 개선을 기록했으며, 특히 신규 아이템에 대한 탐색 능력이 크게 향상된 것으로 나타났다. 또한, 코드 충돌 비율이 30% 이상 감소하고, 양자화 손실이 최소화된 점이 실용적인 운영 효율성을 뒷받침한다. 전체 시스템은 4억 일일 활성 사용자를 지원하면서 실시간 트레이닝 파이프라인과 원활히 통합돼, 대규모 스트리밍 환경에서도 안정적인 성능을 유지한다.

QARM V2: 대규모 멀티모달 추천을 위한 정량적 정렬과 사용자 시퀀스 추론

초록

상세 분석

댓글 및 학술 토론

의견 남기기