대규모 반사실 학습 방법 검증: 실전 테스트베드

본 논문은 오프‑폴리시 학습, 즉 로그된 사용자‑시스템 상호작용 데이터를 활용해 새로운 정책을 평가·학습하는 문제를 ‘배너 광고 채우기’라는 구체적 응용에 적용한다. 연구팀은 Criteo의 디스플레이 광고 로그를 기반으로 1억 3천만 건 이상의 데이터셋을 구축했으며, 각 노출에 대해 (1) 사용자 컨텍스트 c, (2) 후보 제품 집합 Pc, (3) 제품‑컨텍스트 특징 φ(c,p), (4) 로그 정책 π₀에 의해 선택된 제품 순서, (5) 클릭 여부와 위치, (6) 선택된 순서에 대한 정확한 propensity를 기록했다. 로그 정책은 Plackett‑Luce 모델을 사용해 후보 제품에 점수를 부여하고, 점수에 비례해 무작위 순위를 샘플링한다. 비클릭 사례는 10%만 남겨 데이터 규모를 조절했으며, 이 샘플링 비율은 평가 단계에서 보정된다. 데이터의 신뢰성을 검증하기 위해 논문은 ‘정상성 검사’를 수행한다. IPS와 SNIPS 추정량이 기대값 1을 만족하는지, 다양한 ε‑혼합 정책 π_ε(=ε·Uniform+(1‑ε)·π₀) 에 대해 추정값과 99% 신뢰구간이 일관되는지를 확인한다. 결과는 슬롯 수(k)가 증가하고 ε가 커질수록 역 propensity가 급증해 추정 분산이 크게 늘고, 특히 k≥3에서는 정상성 가정이 깨짐을 보여준다. 따라서 이후 실험은 1‑slot 상황에 집중한다. 학습 알고리즘 비교는 두 축으로 나뉜다. 첫 번째는 최신 오프‑폴리시 학습 기법인 Doubly Robust (DR)와 POEM이다. DR은 로그된 보상과 모델이 예측한 보상의 차이를 보정해 편향을 감소시키며, POEM은 정책 위험을 직접 최소화하도록 설계된 구조화된 손실 함수를 사용한다. 두 번째는 로그 데이터를 회귀 문제로 변환해 지도학습 기반 모델을 학습하는 베이스라인이다. 회귀 기반 모델은 클릭 확률을 예측하고, 이를 기반으로 최적의 제품 순위를 구성한다. 실험 결과는 1‑slot 환경에서 DR과 POEM이 모두 회귀 기반 베이스라인보다 높은 IPS 추정 클릭률을 달성했으며, 특히 DR이 가장 큰 개선을 보였다. 또한 SNIPS 추정값은 DR과 POEM이 안정적인 편향‑분산 균형을 유지함을 확인했다. 이는 정확히 기록된 propensity와 충분히 큰 데이터 규모가 있을 때, 최신 반사실 학습 방법이 전통적인 감독학습을 뛰어넘을 수 있음을 실증한다. 이 논문이 제공하는 공개 데이터셋(35 GB gzipped, 256 GB raw)과 평가 파이프라인은 BLBF(Batch Learning from Bandit Feedback) 연구에 중요한 인프라를 제공한다. 데이터는 후보 제품군이 컨텍스트에 따라 동적으로 변하고, 로그 정책이 완전 지원(full‑support)을 보장하므로, 다양한 정책 클래스와 정규화 기법, 모델 선택 전략을 실험하기에 적합하다. 또한 비클릭 샘플링 보정, 다중 슬롯에 대한 높은 분산 문제 등 실무에서 마주치는 난관들을 명시적으로 다루어, 향후 연구가 실제 서비스 환경에 바로 적용될 수 있는 토대를 마련한다. 결론적으로, 이 연구는 대규모 실제 광고 로그를 이용해 반사실 학습 알고리즘을 체계적으로 검증하고, 최신 오프‑폴리시 방법이 기존 감독학습보다 실질적인 성능 향상을 제공함을 증명한다. 이는 광고, 추천, 검색 등 다양한 인터랙티브 시스템에서 온라인 실험 비용을 절감하고, 사용자 중심 최적화를 가속화할 수 있는 중요한 전진이다.

대규모 반사실 학습 방법 검증: 실전 테스트베드

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기