예산 최적화와 검열 학습을 통한 스폰서 검색 광고 전략

초록

본 논문은 반복되는 스폰서 검색 경매에서 광고주가 제한된 예산 내에서 클릭 수를 최대화하는 문제를 마코프 결정 과정(MDP)으로 모델링하고, 관측이 검열된 상황에서 Kaplan‑Meier 추정기를 이용한 학습 알고리즘을 제안한다. Microsoft adCenter 데이터를 활용한 실험을 통해 제안 알고리즘이 빠르게 최적 성능에 수렴함을 입증한다.

상세 분석

이 연구는 온라인 광고 시장, 특히 검색 엔진 광고에서 예산 제약 하에 효율적인 입찰 전략을 찾는 문제를 MDP 프레임워크에 정형화한다는 점에서 의미가 크다. 기존 연구들은 대부분 완전 관측 가능한 보상 구조를 가정하거나, 예산 소진 시점에서의 단순한 휴리스틱을 적용했지만, 실제 경매에서는 클릭이 발생했는지 여부와 비용이 예산 한도에 의해 부분적으로 가려지는 ‘검열(censoring)’ 현상이 존재한다. 저자들은 이러한 검열 현상을 정확히 모델링하기 위해 생존 분석에서 널리 쓰이는 Kaplan‑Meier(product‑limit) 추정기를 차용한다. 이 추정기는 관측되지 않은(검열된) 데이터 포인트에 대한 생존 확률을 비편향적으로 추정할 수 있어, 클릭 확률과 비용 분포를 점진적으로 학습하는 데 적합하다.

알고리즘은 매 라운드마다 현재 예산 상태와 남은 검색어(키워드) 풀을 상태로 정의하고, 가능한 입찰액을 행동으로 설정한다. 행동 선택 후 관측되는 클릭 여부와 비용이 예산을 초과하면 해당 관측은 ‘우측 검열(right‑censored)’으로 처리된다. Kaplan‑Meier 추정기를 이용해 각 입찰액에 대한 클릭 확률과 비용 기대값을 업데이트하고, 이를 기반으로 가치 함수(V‑function)를 갱신한다. 이 과정은 강화학습의 정책 반복(policy iteration)과 유사하지만, 검열된 데이터를 효과적으로 활용한다는 점에서 차별화된다.

실험에서는 Microsoft adCenter에서 수집한 대규모 실제 경매 로그를 사용했으며, 제안 알고리즘을 기존의 Q‑learning, SARSA, 그리고 단순 예산 비례 배분 방식과 비교하였다. 결과는 제안 방법이 초기 단계에서도 빠르게 클릭 수를 최적에 근접시키고, 전체 예산 사용 효율성에서도 우수함을 보여준다. 특히, 검열된 관측을 무시하거나 잘못 처리하는 기존 방법에 비해 수렴 속도가 현저히 빨라 실시간 입찰 시스템에 적용 가능성을 시사한다.

이 논문의 주요 기여는 다음과 같다. 첫째, 광고 예산 최적화 문제를 검열된 MDP로 정형화함으로써 이론적 기반을 확립했다. 둘째, Kaplan‑Meier 추정기를 강화학습에 통합한 새로운 학습 메커니즘을 제시했다. 셋째, 실제 대규모 광고 데이터에 대한 실증 분석을 통해 알고리즘의 실용성을 검증했다. 향후 연구에서는 다중 광고주 간 경쟁을 고려한 게임 이론적 확장이나, 비정형 검열(예: 좌측 검열) 상황에 대한 일반화도 기대된다.