협업 딥러닝 기반 추천 시스템
초록
본 논문은 아이템의 텍스트 콘텐츠와 사용자‑아이템 평점 행렬을 동시에 학습하는 계층적 베이지안 모델인 Collaborative Deep Learning(CDL)를 제안한다. CDL은 스택드 디노이징 오토인코더(SDAE)로 텍스트에서 깊은 특징을 추출하고, 이를 확률적 행렬 분해(PMF)와 결합해 양방향 상호작용을 구현한다. 실험 결과, 기존의 협업 필터링·주제 모델(CRT)보다 크게 향상된 정확도를 보이며, 희소한 평점과 제한된 콘텐츠에서도 강인한 성능을 입증한다.
상세 분석
CDL은 두 가지 핵심 아이디어를 결합한다. 첫째, 스택드 디노이징 오토인코더(SDAE)를 베이지안 형태로 재구성하여 아이템의 원시 텍스트(Bag‑of‑Words)를 잡음이 섞인 입력으로부터 복원하면서, 중간 레이어(인코더 출력)를 확률적 잠재 벡터로 활용한다. 이 인코더 출력은 아이템의 고차원 의미를 압축한 표현이며, 베이지안 정규화(λ_w, λ_s 등)를 통해 과적합을 방지한다. 둘째, 확률적 행렬 분해(PMF)와 유사한 방식으로 사용자 잠재 벡터 u_i와 아이템 잠재 벡터 v_j를 정의하고, v_j를 “오프셋(γ_j) + 인코더 출력”으로 구성한다. 즉, 아이템 벡터는 텍스트 기반 특징과 협업 기반 오프셋이 선형 결합된 형태가 된다.
이러한 설계는 두 가지 중요한 상호작용을 가능하게 한다. (1) 평점 정보가 인코더 학습에 피드백을 제공한다. MAP 추정 과정에서 v_j가 평점 손실에 직접 기여하므로, 오차가 큰 아이템에 대해 인코더 파라미터가 조정되어 보다 예측력 있는 텍스트 특징을 학습한다. (2) 텍스트 특징이 평점 예측에 직접 활용된다. 인코더 출력이 v_j에 포함되므로, 평점이 희소한 신규 아이템이라도 텍스트만으로 의미 있는 초기 벡터를 얻을 수 있다.
수학적으로는 전체 로그 사후확률 L을 최대화하는 EM‑style 알고리즘을 제시한다. E‑step에서는 현재 파라미터에 대해 u_i와 v_j를 좌표 상승법으로 업데이트하고, M‑step에서는 SDAE의 가중치와 편향을 역전파 방식으로 최적화한다. λ_s → ∞ 로 두면 SDAE의 재구성 오류가 딱딱한 제약이 되어, 실제 학습은 두 개의 신경망(인코더‑디코더와 평점 예측 네트워크)이 공유 입력을 갖는 형태로 수렴한다. 또한 λ_n/λ_v 비율에 따라 모델이 완전한 CTR 형태(텍스트 특징 고정) 혹은 순수 CF 형태(텍스트 무시)로 변형될 수 있음을 보이며, 중간값이 가장 좋은 성능을 제공한다는 실험적 근거를 제시한다.
실험에서는 CiteULike, Netflix, 그리고 뉴스 기사 데이터셋을 사용했으며, 평가 지표는 Recall@M, NDCG@M 등이다. CDL은 특히 평점이 1% 이하로 극히 희소한 상황에서 기존 CTR 대비 5~10% 이상의 상대적 개선을 보였다. 또한, 학습된 인코더 가중치는 별도 텍스트 분류·클러스터링 작업에 재사용 가능함을 시연해, 모델의 범용성을 강조한다.
전반적으로 CDL은 “깊은 표현 학습 + 협업 필터링”을 하나의 베이지안 그래프 모델로 통합함으로써, 기존의 두 단계 파이프라인(특징 추출 → 협업 학습)에서 발생하던 정보 손실을 최소화하고, 희소 데이터 환경에서도 견고한 추천 성능을 달성한다는 점이 가장 큰 기여이다.
댓글 및 학술 토론
Loading comments...
의견 남기기