영화 평점 예측 알고리즘 성능 비교 연구
초록
본 논문은 사용자‑기반 협업 필터링, 반복 행렬 분해, 그리고 코렌의 통합 모델(인접 기반 + 요인 모델)을 적용해 10 000명·1 000편 영화 데이터셋의 평점을 예측하고, RMSE로 성능을 비교한다. 결과는 세 방법 모두 큰 차이를 보이지 않으며, 특히 단순한 반복 행렬 분해가 0.9908의 RMSE로 가장 낮은 오차를 기록한다는 점을 강조한다.
상세 분석
이 연구는 세 가지 대표적인 추천 알고리즘을 동일한 데이터셋에 적용해 실험적 비교를 수행한다는 점에서 의미가 있다. 먼저 사용자‑기반 협업 필터링(User‑Based CF)은 피어슨 상관계수와 코사인 유사도를 시험했으며, 이웃 수를 5에서 100까지 변화시켜 최적의 파라미터를 탐색했다. 실험 결과 코사인 유사도가 일관적으로 낮은 RMSE(1.01)를 보였으며, 이웃 수가 50을 초과해도 성능 향상이 미미함을 확인했다. 이는 고차원 희소 데이터에서 유사도 계산이 노이즈에 민감하고, 이웃 확대가 과적합을 초래할 가능성을 시사한다.
두 번째로 제안된 반복 행렬 분해(Iterative Matrix Factorization)는 낮은 차원의 잠재 요인 K를 이용해 사용자·아이템 벡터를 순차적으로 업데이트한다. 저자들은 평균 평점 차감을 전처리하고, 알려진 평점은 매 반복마다 복원해가며 수렴을 관찰했다. 랭크 3, 반복 20회에서 RMSE 0.9908을 달성했으며, 이는 사용자‑기반 CF보다 약 2% 개선된 수치이다. 그러나 랭크를 높일수록 오히려 과적합이 발생해 성능이 감소하는 현상이 관찰돼, 잠재 요인 차원의 선택이 핵심임을 보여준다.
세 번째 방법인 코렌의 통합 모델은 베이스라인(전체 평균 µ, 사용자 편향 b_u, 아이템 편향 b_i) 위에 잠재 요인 내적(q_i·p_u)과 아이템‑아이템 이웃 가중합을 결합한다. 명시적 피드백과 암시적 피드백을 동일하게 1/0 형태로 처리했으며, k‑이웃 수와 정규화 파라미터를 교차 검증으로 튜닝했다. 논문에서는 최종 RMSE 값을 명시하지 않았지만, “큰 차이를 보이지 않는다”는 서술로 보아 사용자‑기반 CF와 비슷하거나 약간 우수했을 것으로 추정된다.
전체적으로 데이터 전처리(90/10 분할, 평균 차감, 결측치 0 대입)와 평가 지표(RMSE)만을 사용했으며, 하이퍼파라미터 탐색 범위가 제한적이다. 특히 통합 모델의 구현 세부사항(학습률, 정규화 계수, 반복 횟수 등)이 누락돼 재현 가능성이 낮다. 또한 실험에 사용된 데이터가 공개된 벤치마크(예: MovieLens)와 차이가 없어, 결과의 일반화 가능성을 판단하기 어렵다. 그럼에도 불구하고, 단순 반복 행렬 분해가 복잡한 통합 모델에 비해 경쟁력 있는 성능을 보인다는 점은 실무에서 모델 선택 시 계산 비용과 구현 난이도를 고려한 의사결정에 유용한 인사이트를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기