슬레이트 추천을 위한 오프정책 평가와 파이오프 인버스 추정기

본 논문은 검색·광고·추천 시스템에서 슬레이트(순위) 정책의 오프정책 평가를 위해, 슬레이트 보상이 각 아이템의 선형 합으로 표현된다는 약한 가정 하에 파이오프 인버스(pseudoinverse, PI) 추정기를 제안한다. PI 추정기는 기존의 IPS 대비 로그 데이터 요구량을 지수적으로 감소시키며, 실험을 통해 편향이 적고 분산이 낮은 것을 확인하였다. 또한, PI를 활용한 오프정책 최적화 방법을 제시한다.

저자: Adith Swaminathan, Akshay Krishnamurthy, Alekh Agarwal

**1. 연구 배경 및 문제 정의** 검색, 광고, 전자상거래 등에서 사용자는 한 번에 여러 아이템(슬레이트)을 제시받는다. 새로운 정책이 실제 서비스에 적용되기 전에, 기존 로그 데이터를 활용해 그 정책의 기대 보상을 추정하는 것이 오프정책 평가이다. 기존의 역확률점수(IPS) 방식은 슬레이트 전체 확률을 분모에 두어, 슬레이트 조합 수가 급격히 늘어날수록(슬롯 수 ℓ, 각 슬롯당 아이템 수 m) 로그 데이터 요구량이 지수적으로 증가한다. 이는 실무에서 비현실적인 요구가 된다. **2. 선형성 가정과 모델링** 저자들은 슬레이트 보상이 각 슬롯·아이템에 대한 내재 보상의 합으로 표현될 수 있다는 **선형성 가정(Assumption 1)** 을 도입한다. 수식적으로는 \

슬레이트 추천을 위한 오프정책 평가와 파이오프 인버스 추정기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기