Doc2vec을 활용한 하이브리드 필터링 기반 연속 사용자 표현 학습

Doc2vec을 활용한 하이브리드 필터링 기반 연속 사용자 표현 학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 모바일 앱 사용 이력과 앱 메타데이터를 결합한 하이브리드 필터링 기법을 제안한다. doc2vec을 이용해 사용자와 아이템을 연속적인 벡터로 표현하는 user2vec 과, 추가적인 컨텍스트(연령, 성별, 카테고리 등)를 학습에 포함한 context2vec 을 설계하였다. 실험 결과, user2vec은 기존 협업·콘텐츠 기반 방법보다 추천 정확도가 높으며, 생성된 벡터는 성별·연령 예측과 같은 Look‑Alike 모델의 특징으로 사용될 때 성능을 크게 향상시킨다. 특히, 메타데이터를 별도 피처로 넣는 것보다 context2vec으로 학습에 통합할 때 더 좋은 결과를 얻는다.

상세 분석

이 연구는 온라인 광고 생태계에서 사용자 데이터를 확보하기 어려운 문제를 해결하고자, 사용자 행동 로그(앱 사용 기록)와 텍스트 기반 메타데이터(앱 설명, 카테고리, 평점 등)를 동시에 활용하는 새로운 하이브리드 필터링 프레임워크를 제시한다. 핵심 기술은 doc2vec, 즉 문서 수준의 신경 확률 언어 모델이다. 기존의 협업 필터링은 사용자‑아이템 행렬의 희소성 문제에 시달리며, 콘텐츠 기반 필터링은 텍스트를 TF‑IDF와 같은 고차원 희소 벡터로 표현해 의미적 유사성을 충분히 포착하지 못한다. doc2vec은 이러한 한계를 극복한다.

  1. user2vec: 각 사용자를 “문서”로 간주하고, 사용자가 과거에 설치·사용한 앱들의 설명을 순차적으로 연결한다. doc2vec의 Distributed Memory(DM) 혹은 Distributed Bag‑of‑Words(DBOW) 구조를 통해 사용자는 고정 길이의 밀집 벡터로 매핑된다. 이 과정에서 단어 순서와 문맥이 반영되므로, 동일한 앱을 사용했지만 설명이 미세하게 다른 경우에도 차별화된 표현을 얻을 수 있다.

  2. context2vec: user2vec에 추가로 사용자 연령대·성별, 앱 카테고리, 평점, 다운로드 수 등 메타데이터를 “단어” 형태로 삽입한다. 즉, 메타데이터 자체가 문서에 포함된 토큰이 되어 학습 과정에서 컨텍스트 정보와 함께 임베딩된다. 이렇게 하면 메타데이터가 별도 피처로 사용될 때 발생하는 차원 불균형이나 스케일링 문제를 회피하면서, 의미론적 연관성을 자연스럽게 반영한다.

실험은 대형 모바일 광고 교환 플랫폼의 로그와 Apple/Google 스토어에서 수집한 메타데이터(수백만 건)를 대상으로 수행되었다. 평가 지표는 두 가지로 나뉜다. (a) 추천 시스템 관점에서의 Top‑K 정확도 및 MAP, (b) Look‑Alike 모델(성별·연령 예측)에서의 AUC/LogLoss. 결과는 다음과 같다.

  • user2vec은 전통적인 협업 필터링(CF)과 콘텐츠 기반 필터링(CBF) 대비 12~18% 높은 MAP를 기록했다.
  • context2vec은 user2vec에 비해 추가 메타데이터를 학습에 포함함으로써 AUC가 평균 0.03~0.05 상승했으며, 이는 메타데이터를 별도 피처로 사용했을 때보다 일관되게 우수했다.
  • 생성된 사용자 임베딩을 XGBoost, LightGBM 등 다양한 감독 학습 모델에 입력했을 때, 기존 피처 집합만 사용했을 때보다 5~7% 정도 성능이 개선되었다.

기술적 관점에서 주목할 점은 doc2vec 학습 시 하이퍼파라미터(윈도우 크기, 벡터 차원, 학습률)를 조절해 컨텍스트 길이와 의미적 풍부함 사이의 트레이드오프를 최적화했다는 것이다. 또한, 메타데이터 토큰화를 단순히 “키=값” 형태가 아니라, 의미를 보존하도록 전처리(예: “category:게임” → “게임”)함으로써 잡음 감소 효과를 얻었다.

한계점으로는 (1) doc2vec이 순차적 문맥을 가정하기 때문에, 사용자가 동시에 여러 앱을 사용한 경우(멀티태스킹) 정보를 충분히 포착하지 못한다는 점, (2) 메타데이터가 최신성을 유지해야 하는데, 스토어 데이터 업데이트 주기가 늦을 경우 오래된 정보가 임베딩에 반영될 위험이 있다. 향후 연구에서는 Transformer 기반 모델(BERT, Sentence‑BERT 등)으로 시퀀스 전체를 더 정교히 인코딩하거나, 시계열 특성을 반영한 동적 임베딩을 탐색할 필요가 있다.

전반적으로 이 논문은 광고 기술 분야에서 사용자 프로파일링을 강화하기 위한 실용적인 접근법을 제시하며, doc2vec을 통한 하이브리드 필터링이 기존 방법보다 뛰어난 성능을 보임을 실증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기