동적 사전 설계로 해결하는 콜드스타트 탐색 문제
초록
본 논문은 대규모 추천 시스템에서 신규 아이템에 대한 과도한 탐색을 방지하기 위해, Thompson Sampling의 사전 분포를 동적으로 조정하는 방법을 제안한다. 기존의 Beta(1,1) 사전이 50% 성공률을 가정해 과도한 트래픽을 할당하는 문제를, 현재 최우수 아이템의 성공률과 목표 탐색 확률 ε을 이용해 사전 평균 q를 폐쇄형 2차 방정식으로 계산함으로써 해결한다. 제안 방법은 배치 업데이트와 파이프라인 지연 상황에서도 탐색 강도를 정확히 제어할 수 있으며, Monte‑Carlo 검증, 오프라인 시뮬레이션, 그리고 수백만 사용자 대상 온라인 실험에서 기존 방식 대비 클릭률·노출 효율을 크게 개선함을 보인다.
상세 분석
이 연구는 콜드스타트 상황에서 Thompson Sampling(TS)의 사전 선택이 시스템 전체 성능에 미치는 영향을 정량적으로 분석한다. 기존 실무에서는 Beta(1,1)이라는 균등 사전을 기본값으로 사용하지만, 실제 서비스에서는 “우수 콘텐츠”의 성공률이 5% 이하인 경우가 많아 50%라는 낙관적 가정이 심각한 과탐색을 초래한다. 특히 대규모 플랫폼은 매 몇 시간마다 배치 업데이트를 수행하고, 데이터 파이프라인 지연으로 인해 신규 아이템이 실제 피드백을 반영받기 전까지는 사전만이 의사결정에 영향을 미친다. 이러한 구조적 제약은 신규 아이템이 수 시간 동안 과도하게 노출돼 사용자 경험을 저해하고, 전체 트래픽을 비효율적으로 소모하게 만든다.
논문은 이러한 문제를 해결하기 위해 “Dynamic Prior Thompson Sampling”(DPTS)이라는 프레임워크를 제시한다. 핵심 아이디어는 현재 최고 성과를 보이는 아이템 k의 관측 성공률 (\hat p_k)와 샘플 수 (n_k)를 이용해, 신규 아이템 j의 사전 평균 (q_j)를 다음 제약식 (P(X_j > Y_k)=\epsilon)를 만족하도록 설계하는 것이다. 여기서 (X_j)와 (Y_k)는 각각 신규 아이템과 현재 최우수 아이템의 베타 사후분포에서 샘플링된 값이다. 베타 분포를 정규 근사(Normal approximation)하여 두 분포의 차이가 표준 정규분포의 (\epsilon) 분위수와 일치하도록 하면, (q_j)에 대한 2차 방정식이 도출된다. 논문은 이 방정식의 계수를 명시하고, 실용적인 해(음수가 되지 않도록 하는 보수적 해)를 선택하는 알고리즘을 제시한다.
이 설계는 다음과 같은 장점을 제공한다. 첫째, 탐색 확률 (\epsilon)을 직접 설정함으로써 운영팀이 원하는 탐색 강도를 정량적으로 제어할 수 있다. 둘째, 사전 강도 파라미터 (r)를 통해 사전의 “가상 샘플 수”를 조절해 초기 탐색을 부드럽게 전환한다. 셋째, 배치 업데이트 지연 구간에서도 사전이 지배적인 역할을 수행하지만, 사전 자체가 과도한 탐색을 억제하도록 설계되었으므로, 실제 피드백이 반영되기 전까지도 불필요한 노출을 최소화한다.
실험 부분에서는 네 단계의 검증을 수행한다. (1) Monte‑Carlo 시뮬레이션을 통해 다양한 (n_k), (\hat p_k), (\epsilon), (r) 조합에서 실제 탐색 확률이 목표값과 0.01 이하의 오차로 일치함을 확인했다. (2) 배치 업데이트를 모사한 오프라인 시뮬레이션에서는 DPTS가 누적 보상이 최대 9.5% 향상되는 것을 보였으며, 특히 약한 신규 아이템(성공률 1%)에 대한 과탐색을 크게 억제했다. (3) 강제 탐색(Fixed‑Horizon) 기법과 비교했을 때, DPTS는 탐색 강도를 사전에 내재화함으로써 정책 전환 시 발생하는 급격한 변동을 피하고, 전체 보상 측면에서 경쟁력을 유지했다. (4) 실제 서비스인 썸네일 개인화 시스템에 수백만 사용자에게 A/B 테스트를 적용한 결과, Qualified Play‑Through Rate이 +0.20% 상승하고, “regretted impressions”(사용자에게 부정적 경험을 초래한 노출) 비율이 21% 감소했다.
이러한 결과는 사전 설계가 TS의 탐색‑활용 균형에 미치는 영향을 정량적으로 제어할 수 있음을 입증한다. 특히 배치 업데이트와 파이프라인 지연이 필연적인 대규모 온라인 서비스에서, 사전 자체를 “탐색 조절기”로 활용하는 접근은 기존의 강제 탐색이나 메타‑러닝 기반 방법보다 구현 복잡도가 낮고, 실시간 운영에 바로 적용 가능하다는 실용적 장점을 가진다. 또한, 사전 평균을 목표 탐색 확률에 맞추는 폐쇄형 해는 계산 비용이 거의 없으며, 서비스 레이어에서 간단히 파라미터 (\epsilon)과 (r)만 조정하면 다양한 비즈니스 목표(예: 사용자 만족도, 광고 수익, 크리에이터 보상)와 연계된 탐색 정책을 빠르게 실험·조정할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기