MDP 기반 추천 시스템 장기 효과와 초기 모델링

초록

본 논문은 전통적인 정적 추천 접근법을 넘어, 추천 과정을 순차적 의사결정 문제로 재구성한다. 마코프 결정 과정(MDP)을 활용해 장기적인 사용자 반응과 각 추천의 기대 가치를 동시에 고려하며, 초기 모델로서 n‑gram 기반 예측 모델을 제안한다. 실험 결과, 제안된 n‑gram 마코프 체인이 기존 예측 모델보다 높은 정확도를 보이며, MDP 기반 시스템에 효과적으로 적용될 수 있음을 입증한다.

상세 분석

이 논문은 추천 시스템을 정적 예측 문제에서 동적 의사결정 문제로 전환함으로써, 기존 접근법이 놓치기 쉬운 두 가지 핵심 요소—추천의 장기 효과와 기대 보상—를 동시에 최적화한다는 점에서 의미가 크다. MDP는 상태, 행동, 전이 확률, 보상이라는 네 요소로 구성되며, 여기서 상태는 사용자의 현재 컨텍스트(예: 최근에 본 아이템 시퀀스), 행동은 시스템이 제시할 아이템, 전이 확률은 사용자가 특정 아이템을 선택한 뒤 다음 상태로 이동할 확률, 보상은 선택된 아이템이 가져오는 매출 혹은 만족도 등으로 정의된다.

핵심 도전 과제는 정확한 전이 확률 모델을 사전에 구축하는 것이다. 저자들은 이를 위해 n‑gram 모델을 차용한다. n‑gram은 자연어 처리에서 단어 시퀀스의 조건부 확률을 추정하는 방식으로, 여기서는 사용자의 아이템 시퀀스를 ‘단어’에 비유한다. 예를 들어, 3‑gram은 사용자가 최근 두 개의 아이템을 본 뒤 세 번째 아이템을 선택할 확률을 추정한다. 이 방식은 마코프 가정(현재 상태가 과거 몇 단계만 의존한다)을 명시적으로 반영하면서도, 데이터가 충분히 풍부할 경우 높은 예측 정확도를 제공한다.

또한, 저자들은 n‑gram 모델을 단순히 확률 추정에 머무르지 않고, MDP의 전이 확률 행렬로 직접 변환한다. 이를 위해 스무딩(smoothing) 기법과 백오프(back‑off) 전략을 적용해 희소 데이터 문제를 완화하고, 드물게 나타나는 시퀀스에 대해서도 합리적인 전이 확률을 부여한다. 이렇게 구축된 초기 MDP 모델은 강화 학습이나 정책 반복(policy iteration) 같은 동적 최적화 알고리즘에 바로 투입될 수 있다.

실험에서는 실제 전자상거래 로그 데이터를 사용해 n‑gram 기반 마코프 체인의 예측 정확도를 기존 협업 필터링, 베이지안 개인화 모델 등과 비교하였다. 결과는 n‑gram 모델이 특히 짧은 시퀀스(2~3개의 최근 아이템)에서 높은 정확도를 보이며, 장기적인 사용자 행동을 포착하는 데 유리함을 보여준다. 또한, MDP 프레임워크에 이 모델을 적용했을 때, 단순 예측 기반 추천에 비해 클릭‑스루율(CTR)과 매출 증가율이 의미 있게 향상되었다.

이 논문의 한계는 전이 확률이 고정된 마코프 체인에 의존한다는 점이다. 실제 서비스 환경에서는 아이템 풀의 변동, 시즌성, 사용자 선호도의 급격한 변화 등이 발생한다. 따라서 온라인 학습이나 적응형 전이 모델이 필요할 것으로 보인다. 그럼에도 불구하고, 초기 모델링 단계에서 n‑gram을 활용한 접근법은 구현이 간단하고, 데이터 요구량이 비교적 낮으며, MDP 기반 시스템을 실무에 적용하기 위한 실용적인 출발점을 제공한다는 점에서 큰 가치를 가진다.