사이드 정보와 결합된 협업 필터링을 위한 텐서 가우시안 프로세스

본 논문은 사용자·아이템 사이드 정보를 커널 형태로 명시화하고, 저차원 텐서 분해를 통해 가우시안 프로세스(GP)를 효율적으로 근사하는 Tucker Gaussian Process(TGP)를 제안한다. TGP는 기존 베이지안 행렬 분해 모델을 일반화하며, 대규모 협업 필터링 문제에 대해 서브선형 학습 복잡도와 향상된 예측 정확도를 제공한다.

저자: Hyunjik Kim, Xiaoyu Lu, Seth Flaxman

사이드 정보와 결합된 협업 필터링을 위한 텐서 가우시안 프로세스
본 논문은 협업 필터링(Collaborative Filtering, CF) 문제에 사이드 정보를 효과적으로 활용하기 위해 가우시안 프로세스(Gaussian Process, GP)와 저차원 텐서 분해를 결합한 새로운 모델인 Tucker Gaussian Process(TGP)를 제안한다. 1. **문제 정의 및 기존 접근법** - CF는 사용자‑아이템 평점 행렬 R의 관측된 항목을 이용해 누락된 평점을 예측하는 작업이다. 전통적인 방법은 R≈U·Vᵀ 형태의 저랭크 행렬 분해를 수행하는 것이며, 이는 PMF, BPMF 등 베이지안 행렬 분해 모델으로 구현된다. - 사이드 정보(예: 사용자 연령, 영화 장르)를 포함하려는 시도는 주로 행렬 공동분해(Matrix Co‑factorization)나 회귀 기반 잠재 요인 모델 등으로 구현되었지만, 커널을 통한 유사도 명시화는 부족했다. 2. **GP 기반 모델링** - 저자는 평점 Rᵢⱼ를 Rᵢⱼ ∼ N(f(uᵢ,vⱼ), σ²) 로 가정하고, f에 대해 GP 사전 f ∼ GP(0, k) 를 부여한다. 여기서 k는 사용자와 아이템 각각에 대한 커널 k₁, k₂의 곱 형태(k = k₁·k₂) 로 정의된다. - 커널 k₁, k₂는 사이드 정보에 기반한 유사도 함수를 직접 설계할 수 있어, “사용자‑아이템 유사도 = 사용자 유사도 × 아이템 유사도” 라는 직관을 그대로 반영한다. 3. **Weight‑Space View와 Kronecker 구조** - GP를 weight‑space view 로 전환하면, k(x,x′)=φ(x)ᵀφ(x′) 형태의 피처 맵 φ가 존재한다면 f(x)=θᵀφ(x) 로 표현 가능하다. - 제품 커널(k = ∏₍d₎k_d) 의 경우, φ(x)=⊗₍d₎φ_d(x) 로 Kronecker 곱을 사용해 전체 피처를 구성한다. 이때 θ는 D‑차원 텐서이며, 차원이 커질수록 파라미터 수가 nᴰ 로 폭발한다. 4. **Tucker 분해를 통한 저차원 근사** - 텐서 θ를 저차원 Tucker 분해 θ≈W×₍d₎U^{(d)} 로 근사한다. 여기서 W는 r×…×r 차원의 코어 텐서, U^{(d)}는 n×r 행렬이다. - 사전은 W에 N(0,1), U^{(d)}에 N(0,1/r) 를 부여해 원래 GP의 평균·분산을 보존한다. r→∞ 일 때 분포 수렴을 증명하였다. - 이 근사는 파라미터 수를 O(D·n·r + rᴰ) 로 크게 줄이며, SGD 기반 미니배치 학습으로 O(m·(n·r·D + r·D·D)) 의 서브선형 복잡도를 달성한다. 5. **학습 방법** - **MAP 추정**: SGD 로 W와 U^{(d)}를 최적화한다. 미니배치 크기 m 에 따라 연산량이 선형적으로 증가한다. - **베이지안 샘플링**: HMC 을 사용해 전체 사후 분포에서 샘플링한다. 각 leapfrog 단계의 비용은 전체 데이터에 대해 O(N·(n·r·D + r·D·D)) 이다. 6. **CF에의 적용** - D=2 이므로 Tucker 분해는 단순히 저랭크 행렬 분해와 동일해진다. φ₁(uᵢ)=eᵢ, φ₂(vⱼ)=eⱼ (identity kernel) 일 때 f(uᵢ,vⱼ)=U_iᵀ·W·V_j 로 표현된다. - W=I 로 고정하면 기존 Probabilistic Matrix Factorization(PMF)와 동일하고, W를 학습하면 BPMF 에서 사용되는 행/열 평균·공분산을 자동으로 추정한다. - 사이드 정보가 있을 경우 φ_d는

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기