Lanczos 기반 대규모 추천을 위한 잠재 요인 모델

본 논문은 대규모 온라인 서비스에서 사용자에게 개인화된 Top‑N 아이템을 실시간으로 제공하기 위한 새로운 협업 필터링 알고리즘인 Lanczos Latent Factor Recommender(LLFR)를 제안한다. 기존의 협업 필터링 방법은 크게 두 가지 범주로 나뉜다. 첫 번째는 메트릭스 분해 기반의 잠재 요인 모델로, 대표적으로 SVD, ALS, WRMF 등이 있다. 이들 방법은 정확도가 높지만 전체 평점 행렬에 대한 완전 분해가 필요해 메모리와 연산 비용이 크게 증가한다. 두 번째는 이웃 기반 모델로, 아이템‑아이템 혹은 사용자‑사용자 유사도를 직접 계산해 추천을 생성한다. 이 접근법은 구현이 간단하지만, 아이템 수가 많아질수록 유사도 행렬의 계산·저장이 비효율적이며, 희소 데이터에서 성능이 급격히 저하된다. LLFR은 이러한 한계를 극복하기 위해 Lanczos 알고리즘을 차원 축소 도구로 활용한다. Lanczos 과정은 초기 벡터 v₁을 시작으로 Krylov 서브스페이스 K_k(A, v₁)=span{v₁, Av₁, A²v₁,…,A^{k‑1}v₁} 를 순차적으로 구축하면서, 원래의 대형 희소 행렬 A(여기서는 사용자‑아이템 평점 행렬)를 삼중대각 행렬 T_k 로 근사한다. T_k 의 고유값·고유벡터는 A 의 주요 특이값·특이벡터와 매우 유사하므로, T_k 를 이용해 저차원 잠재 요인 행렬 Q∈ℝ^{|I|×k} 를 얻을 수 있다. 이때 k는 원하는 차원 수이며, 일반적으로 50~200 사이에서 선택한다. Lanczos는 O(k·|E|)의 선형 시간 복잡도를 가지며, 메모리 요구량도 O(|I|+|U|+k) 로 제한된다. 따라서 수백만 규모의 아이템·사용자를 가진 데이터셋에서도 실용적으로 적용 가능하다. LLFR의 전체 파이프라인은 다음과 같다. (1) 평점 행렬 R을 전처리하고, 평균값을 빼는 등 정규화를 수행한다. (2) Lanczos 과정을 통해 아이템 잠재 요인 행렬 Q와 아이템 간 저차원 유사도 행렬 S=QQ^T 를 생성한다. (3) 각 사용자 u에 대해, 사용자가 평가한 아이템 집합 I_u와 해당 평점 r_{ui} 를 이용해 사용자 잠재 요인 벡터 p_u = (r_{ui}·q_i)_{i∈I_u} 를 계산한다. (4) 최종 추천 점수는 r̂_{ui}=p_u·q_i 로 구해지며, 이를 내림차순 정렬해 Top‑N 리스트를 만든다. 이 과정은 사용자별로 독립적으로 수행되므로 병렬화가 용이하고, 새로운 평점이 추가될 때는 해당 사용자와 아이템에 대한 벡터만 업데이트하면 된다. 실험 설정은 두 개의 공개 데이터셋인 MovieLens 10M(≈10 M 평점, 6 k 아이템, 71 k 사용자)과 Yahoo!Music(≈700 M 평점, 1 M 아이템, 1 M 사용자)을 사용했다. 데이터는 80/20 비율로 학습·테스트로 분할했으며, 희소성을 조절하기 위해 무작위로 평점을 제거해 다양한 sparsity 수준(80%~99%)을 만들었다. 평가 지표는 Recall@10, MAP@10, NDCG@10을 포함한 Top‑N 정확도와, 학습·예측 시간, 메모리 사용량을 측정했다. 비교 대상은 PureSVD, Item‑Based CF, WRMF, BPR-MF 등 최신 방법이다. 결과는 다음과 같다. (1) 정확도 측면에서 LLFR은 모든 sparsity 수준에서 평균 5~12% 높은 Recall@10을 기록했으며, 특히 95% 이상 희소한 경우에는 20% 이상 성능 차이를 보였다. (2) 실행 시간은 동일 차원(k=100)에서 PureSVD 대비 2.5~3.5배 빠르고, 메모리 사용량은 30~40% 감소했다. (3) New Community 시나리오(전체 사용자·아이템이 새로 추가되는 상황)와 New Users 시나리오(신규 사용자가 평점이 거의 없는 경우)에서도 LLFR은 다른 방법보다 안정적인 성능을 유지했으며, 특히 New Users 상황에서 기존 이웃 기반 방법이 거의 무작위 수준에 머무는 반면, LLFR은 여전히 높은 NDCG를 달성했다. (4) 파라미터 민감도 분석에서 차원 k가 50 이하이면 정확도가 급격히 떨어지지만, 100~150 사이에서는 수렴하는 경향을 보였으며, 반복 횟수는 5~10회면 충분했다. 수치적 안정성을 위해 저자는 Lanczos 과정 중 발생할 수 있는 정규화 손실을 방지하기 위해 재정규화와 재시작(restart) 전략을 적용했으며, 이로 인해 오차 누적이 최소화되었다. 또한, LLFR은 기존 SVD 기반 방법과 달리 전체 행렬을 저장할 필요가 없으므로, 디스크 기반 시스템에서도 메모리 오버헤드 없이 실행 가능하다. 결론적으로, LLFR은 Lanczos 삼중대각화라는 수학적 원리를 활용해 대규모·고희소성 데이터에서 효율적인 차원 축소와 정확한 Top‑N 추천을 동시에 달성한다. 이는 실시간 온라인 서비스, 스트리밍 플랫폼, 전자상거래 등에서 새로운 사용자·아이템이 지속적으로 유입되는 환경에 특히 유용하며, 향후 연구에서는 동적 업데이트, 하이브리드 모델과의 결합, GPU 가속 등을 통해 더욱 확장성을 높일 수 있을 것으로 기대된다.

Lanczos 기반 대규모 추천을 위한 잠재 요인 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기