전략적 구매자를 고려한 비모수적 컨텍스트 가격설계와 격리 기반 학습 정책

본 논문은 비모수적 시장 잡음과 다중 전략적 구매자가 존재하는 반복 컨텍스트 두 번째 가격 경매에서, 판매자가 제한된 정보만으로 최적의 보조금 가격을 학습하도록 설계된 NP‑AC‑S 정책을 제안한다. 단계별 구조와 무작위 격리 기간을 도입해 구매자의 조작을 억제하고, 전체 T 기간에 대해 $\widetilde O(\sqrt{T})$ 수준의 레지 regret을 달성함을 이론적으로 증명한다. 실험에서도 기존 정책들을 능가한다.

저자: Negin Golrezaei, Patrick Jaillet, Jason Cheuk Nam Liang

**1. 연구 배경 및 문제 정의** 온라인 광고 시장과 같은 실시간 플랫폼에서는 아이템(광고 슬롯)의 특성이 고차원 컨텍스트 벡터 $x_t$ 로 표현된다. 판매자는 이 컨텍스트를 바탕으로 보조금(reserve) 가격을 정하고, 두 번째 가격 경매(second‑price auction)를 진행한다. 구매자 $i$의 진정한 가치 $v_{i,t}=⟨\beta,x_t⟩+\epsilon_{i,t}$ 로 모델링되며, 여기서 $\beta$는 모든 구매자에게 공통인 선형 파라미터, $\epsilon_{i,t}$는 비모수적 잡음 $F$ 로부터 독립적으로 추출된다. 판매자는 $\beta$와 $F$에 대한 사전 지식이 없으며, 오직 입찰 데이터만을 통해 이를 학습해야 한다. **2. 전략적 구매자와 부패 모델** 구매자는 장기 할인 효용 $U_{i,t}= \sum_{\tau\ge t}\eta^{\tau-t}\mathbb{E}

전략적 구매자를 고려한 비모수적 컨텍스트 가격설계와 격리 기반 학습 정책

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기