쿼리와 사용자 맞춤 추천을 위한 잠재 협업 검색

초록

본 논문은 사용자가 특정 쿼리를 입력했을 때 해당 사용자에게 최적의 아이템을 순위화하여 제공하는 새로운 과제인 “쿼리·사용자·아이템 삼중관계”를 정의하고, 이를 위해 쿼리·사용자·아이템 텐서를 학습 데이터로 활용하는 잠재 요인 모델을 제안한다. 모델은 상위 순위 아이템을 직접 최적화하도록 설계되었으며, 콘텐츠 특징이 있거나 없을 때 모두 적용 가능하도록 확장하였다. 실험 결과, 제안 모델이 기존 협업 필터링·문서 검색 기반 베이스라인보다 높은 정밀도와 NDCG를 달성함을 보였다.

상세 분석

이 논문은 전통적인 협업 필터링(CF)과 정보 검색(IR) 사이의 경계를 허물고, “쿼리·사용자·아이템” 3차원 텐서를 활용한 새로운 추천 시나리오를 제시한다. 기존 CF는 사용자‑아이템 행렬을 기반으로 잠재 요인을 학습해 사용자의 전반적인 선호를 예측하지만, 쿼리라는 추가적인 컨텍스트가 없기 때문에 특정 상황에 맞는 맞춤형 추천이 어려웠다. 반면 IR은 쿼리와 문서 사이의 매칭을 다루지만, 사용자 프로필을 반영하지 못한다. 논문은 이 두 접근법의 장점을 결합해, (쿼리, 사용자, 아이템) 삼중관계 텐서를 입력으로 받아 각각에 대한 잠재 벡터를 학습한다.

모델은 기본적으로 삼중 내적(tensor factorization) 형태를 띠며, 각 차원에 대한 임베딩 행렬 (U\in\mathbb{R}^{|U|\times d}), (Q\in\mathbb{R}^{|Q|\times d}), (I\in\mathbb{R}^{|I|\times d}) 를 도입한다. 예측 점수는 (\hat{y}_{qui}= \langle \mathbf{q}_q, \mathbf{u}_u, \mathbf{i}_i\rangle) 로 정의되며, 이는 세 벡터의 원소별 곱을 합산한 형태다. 여기서 중요한 점은 순위 기반 손실 함수, 특히 BPR(베이즈 퍼스널 랭크)와 같은 pairwise loss를 확장해 “쿼리‑사용자” 조건 하에 아이템 간 상대적 순위를 직접 최적화한다는 것이다. 이는 기존 CF가 전체 아이템 집합에 대해 평균적인 순위를 학습하는 것과 달리, 특정 쿼리 상황에서 상위 몇 개 아이템만을 정확히 예측하도록 모델을 유도한다.

또한 논문은 두 가지 데이터 상황을 고려한다. 첫 번째는 아이템에 대한 메타데이터(텍스트, 이미지 등)와 같은 콘텐츠 특징이 존재하는 경우로, 아이템 임베딩을 콘텐츠 기반 함수 (f_{\text{content}}(i)) 로 초기화하거나 정규화한다. 두 번째는 순수히 상호작용 데이터만 있는 경우로, 이때는 전통적인 행렬 분해와 동일하게 임베딩을 무작위 초기화하고 학습한다. 두 경우 모두 공동 학습을 통해 콘텐츠와 협업 신호를 자연스럽게 결합한다.

실험 설계는 두 개의 공개 데이터셋(예: MovieLens와 Amazon 리뷰)에서 쿼리 정보를 인위적으로 추출하거나 실제 검색 로그를 활용해 구성하였다. 평가 지표는 Precision@k, Recall@k, NDCG@k 등 순위 기반 메트릭을 사용했으며, 제안 모델은 특히 NDCG에서 5~10% 정도의 개선을 보였다. 베이스라인으로는 전통적인 CF (MF, SVD++), 콘텐츠 기반 필터링, 그리고 쿼리-아이템 매칭을 위한 라텍스 모델 등이 포함되었다.

핵심 인사이트는 다음과 같다. 첫째, 쿼리라는 외부 컨텍스트를 명시적으로 모델에 포함시키면 사용자 맞춤 추천의 정확도가 크게 향상된다. 둘째, 삼중 내적 구조는 파라미터 효율성이 높아 대규모 데이터에서도 학습이 가능하다. 셋째, 순위 기반 손실을 직접 최적화함으로써 상위 아이템에 대한 예측 성능을 크게 끌어올릴 수 있다. 마지막으로, 콘텐츠 특징이 있든 없든 동일한 프레임워크 내에서 통합 학습이 가능하다는 점은 실무 적용성을 높인다.

이러한 기여는 기존 추천 시스템이 “누가”와 “무엇을”에 집중했지만, 실제 서비스에서는 “무엇을 찾고 있는가”라는 쿼리 정보가 필수적이라는 점을 강조한다. 앞으로는 쿼리의 의미론적 표현을 강화하거나, 시계열·세션 정보를 결합해 더욱 정교한 컨텍스트 기반 추천으로 확장할 여지가 있다.