두 방향 잠재 그룹 모델을 활용한 사용자 선호 예측

초록

본 논문은 사용자와 문서 모두에 잠재적인 그룹 구조를 가정한 새로운 확률 모델을 제안한다. 기존의 사용자‑전용 잠재 그룹 모델인 User Rating Profile(URP)과 비교하여 Gibbs 샘플링 기반 추정으로 구현했으며, 특히 평가 데이터가 부족한 신규 문서에 대해 예측 정확도가 크게 향상됨을 실험적으로 입증한다.

상세 요약

이 연구는 정보 검색·추천 시스템에서 “콜드 스타트” 문제를 완화하기 위한 모델링 접근법을 제시한다. 핵심 아이디어는 사용자와 문서 각각을 다수의 잠재 그룹에 할당하고, 두 그룹 간의 상호작용을 통해 관측된 평점(또는 이진 적합도)을 생성한다는 점이다. 기존 URP 모델은 사용자만을 그룹화하고, 문서는 고정된 파라미터(문서별 적합도)로 다루어 문서 간 일반화가 제한적이었다. 반면 두 방향 잠재 그룹 모델(Two‑Way Latent Grouping Model, TWLGM)은 문서도 K개의 잠재 문서 그룹에 할당하고, 각 사용자‑문서 그룹 쌍마다 별도의 평점 확률 분포를 학습한다.

모델은 베이지안 계층 구조를 갖는다. 최상위에서는 사용자 그룹 분포 θ_U와 문서 그룹 분布 θ_D가 각각 Dirichlet(α_U), Dirichlet(α_D)로부터 샘플링된다. 개별 사용자 u는 다항 분포 Mult(θ_U)에서 자신의 그룹 z_u를, 문서 d는 Mult(θ_D)에서 자신의 그룹 w_d를 선택한다. 이후 (z_u, w_d) 쌍에 대해 평점 확률 π_{z_u,w_d}가 Dirichlet(β) 사전으로부터 추출되고, 실제 평점 r_{ud}는 Bernoulli(π_{z_u,w_d}) 혹은 다항 분포(다중 평점)로 생성된다.

추정 단계에서는 Gibbs 샘플링을 이용해 잠재 변수(z_u, w_d, π)와 하이퍼파라미터를 순차적으로 업데이트한다. 특히 사용자와 문서 그룹 할당을 동시에 샘플링함으로써 “문서 일반화”와 “사용자 일반화”가 동시에 이루어진다. 이 과정에서 각 샘플은 사후 확률을 근사하고, 최종 예측은 여러 샘플의 평균을 취해 얻는다.

실험은 두 개의 실제 데이터셋을 사용한다. 첫 번째는 영국 의회 투표 기록(의원‑법안 이진 적합도)이며, 두 번째는 과학 논문 데이터(사용자‑문서 5‑점 척도 평점)이다. 평가 지표는 정확도와 로그 퍼플렉시티이며, 특히 신규 문서에 대한 테스트 셋을 별도로 구성해 콜드 스타트 상황을 시뮬레이션했다. 결과는 TWLGM이 URP보다 평균 5~~7% 높은 정확도와 0.2~~0.4 낮은 퍼플렉시티를 기록함을 보여준다. 특히 문서별 평점이 1~2개에 불과한 경우, TWLGM의 성능 격차가 가장 크게 나타난다. 이는 문서 그룹화를 통해 “문서 간 유사도”를 학습함으로써 데이터가 희소한 상황에서도 의미 있는 사후 예측을 가능하게 하기 때문이다.

또한 모델 복잡도와 수렴 속도에 대한 분석도 포함한다. 그룹 수(K_U, K_D)를 2~~10 범위에서 변동시켰을 때, 적절한 K값(보통 5~~7)이 가장 높은 성능을 보였으며, 과도한 그룹 수는 과적합으로 이어졌다. Gibbs 샘플링은 2000번 이터레이션 후 수렴했으며, 수렴 진단을 위해 Gelman‑Rubin 통계와 로그 사후 확률 추이를 함께 사용했다.

이 논문의 주요 공헌은 (1) 사용자와 문서 양쪽에 잠재 그룹을 도입함으로써 콜드 스타트 문제를 구조적으로 해결한 점, (2) 베이지안 Gibbs 샘플링을 통한 효율적인 추정 프레임워크를 제공한 점, (3) 실제 데이터에서 기존 최첨단 모델 대비 일관된 성능 향상을 입증한 점이다. 한계로는 그룹 수를 사전에 지정해야 하는 점과, 대규모 실시간 시스템에 적용하기 위해서는 변분 추정이나 온라인 샘플링 등 더 빠른 추정 방법이 필요하다는 점을 제시한다. 향후 연구에서는 비정형 텍스트나 메타데이터를 활용한 하이브리드 그룹 생성, 그리고 딥러닝 기반 인코더와 결합한 하이브리드 모델을 탐색할 여지가 있다.

초록

상세 요약

📜 논문 원문 (영문)