다중 도메인 협업 필터링

초록

본 논문은 서로 다른 도메인에 걸친 여러 협업 필터링 작업을 동시에 학습함으로써 데이터 희소성 문제를 완화하는 방법을 제안한다. 각 도메인별 평점 행렬을 확률적 행렬 분해(PMF)로 모델링하고, 도메인 간 상관관계를 자동으로 학습하여 지식을 적응적으로 전이한다. 또한 도메인별 편향을 보정하기 위한 링크 함수를 도입해 예측 정확도를 높였다. 실제 데이터셋 실험 결과, 제안 방법이 기존 대표 알고리즘보다 우수함을 입증한다.

상세 분석

이 연구는 협업 필터링에서 가장 흔히 마주치는 데이터 희소성(sparsity) 문제를 다중 도메인 관점에서 접근한다는 점에서 혁신적이다. 전통적인 단일 도메인 CF는 사용자‑아이템 평점 행렬이 극도로 희소할 경우 모델이 과적합하거나 일반화 성능이 급격히 떨어지는 한계를 가진다. 저자들은 이러한 한계를 극복하기 위해 ‘다중 도메인 협업 필터링(MCF)’이라는 새로운 문제 정의를 제시한다. 핵심 아이디어는 서로 연관된 여러 도메인(예: 영화, 도서, 음악)에서 동시에 학습함으로써 한 도메인의 부족한 데이터가 다른 도메인의 풍부한 데이터로 보완될 수 있다는 점이다.

모델링 측면에서 저자들은 각 도메인 d에 대해 확률적 행렬 분해(PMF)를 적용한다. 구체적으로, 도메인 d의 평점 행렬 R^{(d)}는 사용자 잠재 벡터 u_i와 아이템 잠재 벡터 v_j^{(d)}의 내적에 가우시안 노이즈를 더한 형태로 표현된다. 여기서 중요한 점은 아이템 잠재 벡터가 도메인마다 다르게 정의되지만, 사용자 잠재 벡터는 모든 도메인에서 공유된다는 점이다. 이는 사용자 선호가 도메인 간에 일관된 구조를 가진다고 가정함으로써 지식 전이를 가능하게 한다.

도메인 간 상관관계는 상관 행렬 Σ를 통해 자동 학습된다. Σ_{dd’}는 도메인 d와 d’ 사이의 잠재 공간 상관을 나타내며, 베이지안 사전으로 정규분포를 부여하고 변분 추론을 통해 사후를 추정한다. 이 과정에서 Σ는 데이터에 의해 동적으로 조정되므로, 어느 도메인이 다른 도메인에 얼마나 영향을 미칠지 사전에 정의할 필요가 없으며, 실제 데이터 구조에 맞춰 적응한다.

또한, 각 도메인은 고유한 평점 스케일과 편향을 가질 수 있다. 이를 보정하기 위해 저자들은 ‘링크 함수’를 도입한다. 링크 함수 g_d(·)는 도메인 d의 예측값을 실제 평점 공간으로 매핑하는 비선형 변환이며, 파라미터화된 시그모이드 혹은 다항식 형태로 학습된다. 이 함수를 통해 도메인 간 스케일 차이를 정규화하고, 모델이 보다 정확한 오차 최소화를 수행하도록 돕는다.

학습은 전체 로그우도에 정규화 항을 추가한 MAP 추정으로 수행된다. 변분 베이지안 방법을 사용해 사용자·아이템 잠재 벡터와 Σ, 링크 함수 파라미터를 동시에 최적화한다. 이때, 각 도메인의 데이터가 불균형하게 존재하더라도 Σ가 자동으로 가중치를 조절해 정보가 풍부한 도메인에서 부족한 도메인으로 지식을 전이한다.

실험에서는 영화(MovieLens), 도서(Netflix), 음악(Last.fm) 등 서로 다른 도메인의 공개 데이터셋을 사용했다. 베이스라인으로는 단일 도메인 PMF, 공동 행렬 분해(CMF), 전이 학습 기반 방법 등을 포함했다. 결과는 RMSE와 MAE 지표에서 제안 모델이 모든 베이스라인을 크게 앞섰으며, 특히 데이터가 극도로 희소한 도메인에서 성능 향상이 두드러졌다. 이는 도메인 간 상관관계 학습과 링크 함수가 실제 편향 보정에 효과적임을 입증한다.

이 논문의 한계로는 도메인 간 상관관계가 선형 가우시안 형태로 제한된 점, 그리고 변분 추론의 계산 복잡도가 데이터 규모가 커질수록 증가한다는 점을 들 수 있다. 향후 연구에서는 비선형 상관 구조를 도입하거나, 스케일러블한 딥러닝 기반 변분 추론을 적용해 확장성을 높이는 방향이 제시된다.