순서가 있는 집합을 통한 협업 순위 학습
초록
본 논문은 아이템을 그룹화하고 그 그룹들을 순서대로 배치하는 “Ordered Set Model”(OSM)을 제안한다. 집합을 파티셔닝하고 순서를 부여하는 조합 공간이 초지수적으로 커지는 문제를 메타볼로스-헤스팅스 기반의 split‑and‑merge 샘플링으로 효율적으로 탐색한다. 또한 이진 잠재 변수를 도입한 Latent OSM을 구축해 사용자 취향을 추출하고, 대규모 협업 필터링 실험에서 최신 방법들과 경쟁력을 보인다.
상세 분석
이 논문은 기존 순위 학습이 개별 아이템을 일렬로 정렬하는 데에만 초점을 맞춘 반면, 실제 응용에서는 “동일 등급에 속하는 아이템 집합”을 먼저 형성하고 그 집합들을 순위 매기는 상황이 빈번함을 지적한다. 이를 수학적으로 모델링하기 위해 저자들은 N개의 아이템을 T개의 비어 있지 않은 부분집합으로 나누고, 각 부분집합에 순서를 부여하는 구조를 정의한다. 이러한 구조는 단순 순열(N!)보다 훨씬 큰 상태공간, 정확히는 Fubini(N)≈(N!/2)·6.93145^{N+1} 에 해당한다.
OSM은 각 부분집합 내부의 호환성을 나타내는 잠재 함수 Φ와, 서로 다른 부분집합 간의 순서 관계를 나타내는 Ψ를 곱한 로그선형 형태의 확률분포로 설계된다. Φ와 Ψ는 각각 아이템 쌍 (i,j)에 대한 특징 함수 f_a, g_b와 파라미터 α_a, β_b를 이용해 exp 형태로 구현된다. 이렇게 하면 파라미터 학습은 로그우도에 대한 기대값을 필요로 하는데, 전체 상태공간이 거대하기 때문에 정확한 기대값 계산은 불가능하다. 대신 저자들은 짧은 MCMC 체인을 이용한 스토캐스틱 근사법을 채택한다.
핵심 기여는 “split‑and‑merge” 메트로폴리스‑헤스팅스 알고리즘이다. 현재 상태에서 임의의 비단일 부분집합을 선택해 두 개의 연속 부분집합으로 분할(split)하거나, 연속된 두 부분집합을 하나로 합치는(merge) 제안을 만든다. 제안 확률과 목표분포 비율을 이용해 수용 확률을 계산함으로써, 모든 가능한 파티셔닝·순서 조합을 결국 탐색할 수 있다. 제안·역제안 비율은 부분집합 크기와 전체 부분집합 수에 따라 명시적으로 유도되어, 구현이 비교적 간단하면서도 이론적으로 마코프 체인의 수렴을 보장한다.
정규화 상수 Z는 Annealed Importance Sampling(AIS)을 통해 근사한다. 온도 파라미터 τ를 0→1으로 천천히 올리면서, 각 온도 단계에서 split‑and‑merge 샘플링을 수행하고 가중치를 누적한다. 초기 온도 τ=0에서는 균등분포이므로 Z(0)=Fubini(N)으로 정확히 알 수 있다; 최종 단계에서 얻은 가중치 평균으로 Z(1)을 추정한다.
잠재 변수를 도입한 Latent OSM은 RBM 구조와 유사하게 이진 히든 유닛 h∈{0,1}^K를 추가한다. 히든 유닛은 입력된 ordered set X에 조건부 독립적으로 연결되며, P(h_k=1|X) 를 효율적으로 계산할 수 있다. 히든 유닛의 활성화 확률은 사용자별 “숨은 취향”을 벡터 형태로 제공해, 거리 측정, 시각화, 클러스터링 등에 활용 가능하게 만든다. 학습 과정에서는 히든 유닛을 고정하고 가시 변수 X에 대해 위의 MCMC를 수행한 뒤, 기대값을 근사해 파라미터를 업데이트한다.
실험에서는 MovieLens와 Netflix 같은 대규모 공개 데이터셋을 사용해, 사용자별 영화 평점을 “5‑star 그룹” 등으로 파티셔닝하고, 그 그룹 순서를 예측한다. 평가 지표는 NDCG와 Precision@k이며, Latent OSM은 기존 Matrix Factorization, Bayesian Personalized Ranking, Listwise Learning‑to‑Rank 등과 비교해 유의미하게 높은 성능을 기록한다. 특히 아이템 간 호환성을 명시적으로 모델링함으로써, 희소한 평점 데이터에서도 강건한 추천이 가능함을 보여준다.
이 논문의 한계로는 MCMC 기반 추론이 여전히 계산 비용이 크며, 특히 매우 큰 N(수천~수만)에서는 샘플링 수렴이 어려울 수 있다는 점이다. 또한 파라미터 수가 Φ와 Ψ의 쌍별 특징 함수에 따라 급증하므로, 과적합 방지를 위한 정규화 기법이 필요하다. 향후 연구에서는 변분 추론이나 그래프 신경망을 결합해 효율성을 높이고, 동적 파티셔닝(시간에 따라 변하는 그룹) 모델링을 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기