양면 시장 최적 가격 탐색과 학습 한계
초록
플랫폼이 양면 시장에서 매 라운드 이진 수락/거절 피드백만을 관찰하며 가격을 게시할 때, 단일가격, 이중가격, 그리고 세그먼트가격 메커니즘별로 얻을 수 있는 최소 regret를 정량화한다. 이익 최대화에서는 이중가격 메커니즘으로 O(n²·log log T) regret를 달성하고, 이는 최적이다. GFT(거래이득) 최대화에서는 시장 규모와 메커니즘 표현력에 따라 급격히 달라지며, 양자간 거래에서는 상수 regret, 1대다 시장에서는 O(log log T) 상한과 Ω(log log T·log log log log T) 하한을 보인다. 다자다시장에서는 이중가격 메커니즘이 Ω(T) 선형 regret를 피할 수 없으며, 세그먼트가격 메커니즘을 도입해 O(n²·log log T + n³) regret를 얻는다. 또한, 특성 기반(contextual) 확장에서도 차원 d에 대한 명시적 의존성을 가진 regret 경계를 제시한다.
상세 분석
본 논문은 온라인 양면 시장에서 플랫폼이 매 라운드 가격을 제시하고, 각 거래자(구매자·판매자)의 수락·거절 신호만을 관찰하는 제한된 피드백 모델을 설정한다. 이 모델 하에서 목표는 두 가지—이익(profit)과 거래이득(GFT)—을 최대화하는 것이다. 연구자는 가격 메커니즘을 표현력에 따라 세 단계로 구분한다. 첫 번째인 Single‑Price 메커니즘은 모든 거래자에게 동일한 가격을 제시한다. 두 번째인 Two‑Price 메커니즘은 구매자와 판매자 각각에 별도의 가격을 제공한다. 세 번째인 Segmented‑Price 메커니즘은 구매자와 판매자를 각각 최대 두 그룹으로 나누어 그룹별로 다른 가격을 설정한다.
이익 최대화 문제에서는 Two‑Price 메커니즘이 최소한의 표현력을 제공함에도 불구하고, 저자들은 비용·가치가 고정된 상황에서 O(n²·log log T) regret를 달성하는 알고리즘을 설계한다. 핵심 아이디어는 각 측면(구매자·판매자)의 불확실성 집합을 동시에 이진 탐색하면서, 가격 차이로 발생하는 예산 균형 제약을 위배하지 않도록 하는 것이다. 이 경계는 시간 horizon T 에 대해 최적임을 증명한다.
GFT 최대화에서는 상황이 훨씬 복잡해진다. 양자간 거래(한 명의 구매자와 한 명의 판매자)에서는 가격이
댓글 및 학술 토론
Loading comments...
의견 남기기