실시간 입찰(RTB)은 수요 측 플랫폼(입찰자)이 RTB 광고 교환이 연결된 여러 출판사에서 광고 캠페인을 확장할 수 있도록 합니다. 모바일 앱 설치 광고를 통해 RTB로 여러 캠페인을 관리하면서, 입찰자는 일반적으로 다음 세 가지를 유지해야 합니다: (i) 각 캠페인의 효율성(즉, 광고주의 목표 비용당 설치(CPI))을 충족시키는 것, (ii) 광고주의 예산에 대한 민감도 유지, 그리고 (iii) 광고 교환에 대한 지급 후에도 수익을 낸다. 이 과정에서 입찰자의 행동에 대한 지연 보상이 있습니다; 교환은 광고가 표시된 직후 입찰자에게 요금을 청구하지만, 설치 결과는 상당한 시간이 지난 뒤 입찰자가 알게 됩니다. 이를 통해 각 광고 표시 기회에 대한 입찰 가격과 사용자의 비용을 결정하는 것이 어렵습니다. 이러한 목표들을 함께 관리하기 위해 우리는 현재 효율성, 예산 활용도 및 수익을 포착하는 상태 공간을 기반으로 한 정책을 제안합니다. 이 상태 공간 기반 정책은 지연된 설치 알림을 고려한 새로운 Q-러닝 알고리즘을 통해 과거의 결정과 결과에 대해 학습됩니다. 야후의 진주(Gemini) 광고 플랫폼에서 관리된 모바일 앱 설치 캠페인 데이터를 기반으로 한 실험에서 Q-러닝 기반 정책은 수익 및 효율적인 캠페인 수 증가에 크게 이바지했습니다.
💡 논문 핵심 해설 (Deep Analysis)
This paper proposes a Q-learning based policy for managing mobile app install ads in the Real-Time Bidding (RTB) environment. The primary goal is to maintain campaign efficiency, advertiser budget sensitivity, and profitability simultaneously. RTB involves multiple publishers showing app-install advertisements, where each bidder manages various campaigns. In this setting, there are challenges related to maintaining campaign efficiency, being sensitive to advertiser budgets, and ensuring profitability while dealing with delayed installation notifications.
The proposed solution uses a state space and Q-learning algorithm to address these issues. The state space captures the current campaign’s efficiency, budget utilization, and profit, allowing for the development of an informed bidding policy based on past decisions and outcomes. A reward function is designed to account for the delays in receiving installation results, updating action values within the state space.
Experimental results based on Yahoo Gemini advertising platform data show that this Q-learning approach significantly increases profitability and the number of efficient campaigns. The study provides a theoretical contribution to managing app install ads in RTB environments and offers practical applications for improving campaign efficiency and profitability across various publishers and campaigns.
📄 논문 본문 발췌 (Translation)
## 소개
2017년 모바일 앱 광고로부터 발생한 수익은 330억 달러 이상이었습니다. 이는 Google PlayStore와 Apple App Store에 5백만 개가 넘는 앱이 있으며, 대부분의 앱들이 큰 사용자 기반을 확보하기 어려운 상황에서 나타난 결과입니다. 더 많은 사용자를 유치하기 위해, 애플리케이션들은 자연스럽게 온라인 광고 플랫폼에 의존하게 됩니다. 이러한 플랫폼들 (예를 들어 Yahoo의 Gemini)은 자체 소유 및 운영 프로퍼티 (예: Yahoo 메일, Tumblr 및 Yahoo Finance 등)에서 앱 설치 캠페인을 실행하며, 외부 RTB 광고 교환 (예: MoPub)을 통해 제3자 출판사에서도 이를 수행합니다. 이러한 RTB 광고 교환은 앱 설치 광고주들에게 다양성과 확장을 제공하지만, 다음과 같은 새로운 도전 과제를 동반하기도 합니다.
RTB 광고 교환에서는 각각의 광고 표시 요청에 대해 여러 입찰자가 경매에 참여합니다. 각 입찰자는 동시에 여러 캠페인을 관리하며 교환을 통해 여러 출판사에서 광고를 표시할 수 있습니다. 실제로, 출판사는 광고 요청량, 대상 고객의 품질 및 경매 바닥가격 측면에서 상당한 다양성을 보입니다. 입찰자의 수익도 시간이 지남에 따라 변화하며, 캠페인 효율성 역시 애드버라이저에게 부과된 비용에 따라 변동됩니다. 따라서 출판사와 관련하여 특정 광고 요청을 선택할 때, 현재의 수익 및 캠페인 효율성을 고려한 입찰 가격과 사용자에게 청구하는 비용 결정은 중요합니다. 또한 광고주의 예산에 대한 민감도는 입찰자를 더욱 제약합니다.
예를 들어, 과거의 결정과 결과가 현재의 의사결정을 개선하는 데 도움이 될 수 있습니다. 그러나 일반적인 클릭당 비용(CPC) 광고와 달리 앱 설치 광고에서는 사용자가 앱을 설치했는지 확인하기까지 일주일 이상 걸릴 수 있는 지연된 피드백이 발생합니다. 사용자는 보통 앱 설치 광고를 클릭하면 Google PlayStore 또는 Apple App Store로 이동하며, 입찰자는 해당 애플리케이션을 처음 열었을 때에만 앱 설치가 이루어졌는지 알 수 있습니다 (일반적으로 애드버라이저나 제3자에게 전달됩니다). 이러한 지연은 Figure [fig:conversion_lag]에서 볼 수 있는 것처럼 몇 일 동안 지속될 수 있습니다 (Yahoo Gemini가 관리하는 앱 설치 광고에 대한 경우).
Yahoo Gemini가 관리하는 앱 설치 광고의 설치 지연 분포. 대부분의 설치는 클릭 후 2일 이내에 이루어집니다.
현재 RTB 문헌은 위에서 언급된 목표들 중 일부만을 집중하고 있습니다. 이 연구에서는 순수하게 수익 최대화에 초점을 맞추고 있으며, 다른 연구에서는 캠페인 효율성에만 집중합니다. 과거 결정과 결과로부터 학습하는 관점에서 보면, 가치 반복 (강화학습의 한 형태)을 사용하여 클릭당 비용(CPC) 광고를 위한 캠페인 효율성을 최적화했습니다. 현재 RTB 문헌에서의 캠페인 효율성 개념은 주로 클릭과 같은 액션에 초점을 맞추며, 위에서 설명한 앱 설치와 관련된 피드백 지연을 포함하지 않습니다.
우리의 작업은 앱 설치 광고의 상황에서 수익과 캠페인 효율성을 동시에 다루는 첫 번째 연구입니다. 우리는 상태 공간 접근법을 개발하고, 과거 결정 결과로부터 학습하기 위해 Q-러닝(강화학습의 한 형태)을 활용합니다. 주요 기여를 요약하면 다음과 같습니다:
캠페인 효율성, 광고주의 예산 및 입찰자의 수익성을 포괄하는 상태 공간 접근법
각 광고 요청에 대한 교환 입찰 가격과 광고주에게 청구되는 비용을 결정하기 위한 상태 공간 기반 정책 학습을 위해 Q-러닝 알고리즘.
이 논문의 나머지 부분은 다음과 같이 구성됩니다. Section [sec:setup]에서는 논문의 설정 및 문제 정식화를 다룹니다. Section [sec:state_space]에서는 우리의 상태 공간 접근법에 대해 설명하고, Section [sec:q_learning]에서는 제안된 Q-러닝 알고리즘을 설명합니다. 마지막으로, Section [sec:results]에서는 Yahoo Gemini에서 관리한 모바일 앱 설치 광고 데이터를 기반으로 한 실험 결과를 설명합니다.
방법론
강화학습은 일반적으로 두 가지 방법으로 $`f_{m}(\cdot)`$ 및 $`f_{\eta}(\cdot)`$ 함수를 학습할 수 있습니다. 하나의 방법은 RTB 환경을 모델링하여 이를 통해 $`f_{m}(\cdot)`$과 $`f_{\eta}(\cdot)`$를 최적화하는 것입니다. 하지만 이러한 복잡한 모델을 구축하는 것은 실용적으로 불가능하며, 학습된 함수는 심각한 모델링 오류에 직면하게 됩니다. 다른 방법은 Q-러닝과 같은 모델 없는 접근법으로 과거의 결정과 결과로부터 직접 $`f_{m}(\cdot)`$와 $`f_{\eta}(\cdot)`$를 학습하는 것입니다.
Q-러닝
Section [subsubsec:update_forms]에서 언급한 것처럼, 각 업데이트 단계에서는 입찰 가격과 비용에 대한 복합적인 행동을 취합니다. $`f_{m}(\cdot)`$ 및 $`f_{\eta}(\cdot)`$ 함수의 이산적 특성으로 인해 각 상태에서 가능한 행동은 한정되어 있습니다. 따라서, $`a_m`$ 개의 $`f_{m}(\cdot)`$ 값과 $`a_{\eta}`$ 개의 $`f_{\eta}(\cdot)`$ 값이 존재한다면, 상태 공간 $`\mathcal{S} = \mathcal{S}_m \times \mathcal{S}_{\eta} \times \mathcal{S}_B`$에 대한 행동 공간 $`\mathcal{A}`$는 총 $`a_m \times a_{\eta}`$ 개의 가능한 행동을 갖습니다. Q-러닝 업데이트 단계는 다음과 같이 정의됩니다:
여기서 $`s_t`$와 $`a_t`$는 시간 $`t`$에서의 상태 및 행동을 나타내며, $`R(t)`$는 시간 $`t`$에서의 보상, $`\alpha_t`$는 학습률, 그리고 $`\gamma`$는 잊혀짐 요인입니다. 각 시간에 입찰자는 행동을 선택하고 해당 행동에 대한 보상을 관찰한 후 $`Q`$ 값을 업데이트합니다.
학습률과 잊혀짐 요인
학습률 $`\alpha_t`$는 새롭게 획득된 정보가 과거의 정보와 얼마나 가중되는지 결정합니다. 이론적으로, 감소하는 $`\alpha_t`$는 수렴을 보장하지만 매우 느린 수렴 속도를 초래하므로 작은 상수 값이 충분합니다. 잊혀짐 요인 $`\gamma \in [0,1]`$은 미래의 보상에 대한 중요성을 결정하며, 낮은 $`\gamma`$는 현재의 보상만 고려하는 단시일적 판단을 유도하고 $`\gamma`$가 1에 가까울수록 장기적인 높은 보상을 추구하게 됩니다.
탐색 vs. 활용
[eq:q_update]에서 볼 수 있는 최대화 단계, 즉 $`\max_{a \in \mathcal{A}} Q(s_{t+1}, a)`$는 그리디한 절차입니다. 알고리즘의 수렴은 탐색과 활용 사이의 균형에 크게 의존합니다. 더 빨리 수렴하려면, $`\epsilon`$-그리디 정책을 사용하여 확률 $`1 - \epsilon`$로 [eq:q_update]에서 ‘max’ 행동을 선택하고, 확률 $`\epsilon`$으로 행동 공간 $`\mathcal{A}`$에서 임의의 행동을 선택할 수 있습니다. 이 논문에서는 Boltzmann 샘플링을 사용합니다. 즉, 탐색 중에 상태 주어진 행동 선택 확률은 다음과 같습니다:
여기서 온도 매개변수 $`\theta`$는 시간이 지남에 따라 천천히 감소하여 탐색을 줄입니다. 또한, 각 상태별 학습률 $`\alpha`$를 체계적으로 선택하여 자주 방문되지 않는 상태의 학습 속도를 빠르게 할 수 있습니다.
결정론적 vs. 확률론적 정책
우리 설정에서는 결정론적인 정책을 배울 것이 중요하며, 확률론적인 정책은 실제 목표에서 상태가 벗어나는 것을 방지해야 합니다.
Q-러닝 알고리즘이 수렴하면 주어진 상태에 대한 최상의 행동은 다음과 같이 결정됩니다:
MATH
\arg \max_{a \in \mathcal{A}} Q(s, a).
클릭하여 더 보기
보상 함수
주어진 상태 공간 예시를 고려할 때 [fig:intuitive_approach]에서, 다음 도전 과제가 Q-러닝을 위한 적절한 보상 함수를 설계하는 데 있어 발생합니다.
관측 불가능한 지출 및 비용
많은 출판사와 캠페인을 포함하는 대규모 설정을 고려할 때, 입찰자는 각각의 출판사와 캠페인 수준에서만 데이터를 유지한다고 가정합니다. 즉, 입찰자는 모든 캠페인에 걸친 출판사별 지출과 모든 출판사에 걸친 캠페인별 비용 및 설치를 추적하고 있습니다. 그러나 각각의 캠페인 수준에서 출판사별 지출을, 또는 각각의 출판사 수준에서 광고주별 비용 및 설치를 추적하지 않습니다. 이는 우리가 설정한 상황에서는 비용과 입찰 가격 업데이트 행동에 대한 효과가 관측 불가능하게 만듭니다. 예를 들어, 하나의 출판사는 모든 관련 캠페인에서 이루어진 모든 입찰 및 비용 업데이트 행동에 의해 그 마진이 영향을 받습니다. 마찬가지로 각각의 캠페인은 해당 캠페인이 입찰된 출판사들에 대한 모든 입찰 및 비용 업데이트 행동에 의해 효율성이 영향을 받습니다. 따라서 적절한 보상 함수는 특정 행동에 따른 출판사와 캠페인의 마진과 효율성 변화를 개별적으로 속성을 지정할 수 있어야 합니다.
희박하고 지연된 보상
출판사의 마진이 부정적에서 중립 또는 양적인 상태로 전환되는 것은 두 연속적인 행동 사이에 매우 드문 경우입니다. 마찬가지로, 각각의 캠페인 효율성은 두 연속적인 행동 사이에서는 거의 바뀌지 않습니다. 이러한 변화는 단일 행동이 아닌 행동 시퀀스를 통해 이루어집니다. 따라서 적절한 보상 함수는 상태 변경에 대한 보상을 대신하여 중간 보상을 제공해야 합니다.
여기서 $`\kappa_{rm_{j,i,t}}`$와 $`\kappa_{r\eta_{i,j,t}}`$는 복합적인 행동 $`(\text{bid}_{i,j,t}, \text{cost}_{i,j,t})`$에 대한 속성 할당량을 매핑하는 가중치이고, 하이퍼파라미터 $`\lambda \in [0,1]`$은 마진 변화와 효율성 변화 간의 중요도를 조절합니다. 특히,
는 각각의 출판사 $`j`$의 지출 비율과 캠페인 $`i`$의 예산 비율을 보상에 포함하여, 특정 행동이 마진 및 효율성 변화를 일으키는 원인을 근사적으로 속성을 지정합니다. 제안된 보상 함수는 우리의 설정에서 두 가지 목표 모두를 고려하며 각 단계에서 행동을 보상합니다.