게임이론과 머신러닝을 결합한 스폰서 검색 수익 최적화
초록
본 논문은 광고주가 경매 메커니즘에 반응해 입찰을 조정하는 과정을 마코프 모델로 학습하고, 이를 바탕으로 예측된 입찰 시퀀스 상에서 경험적 수익을 최적화하는 이중 최적화 프레임워크를 제안한다. 외부 최적화 단계에서는 유전 프로그래밍을 이용해 수익을 최대화하는 새로운 경매 메커니즘을 탐색한다. 실험 결과, 제안 방법이 기존 GSP 및 기타 베이스라인보다 높은 수익을 달성한다.
상세 분석
이 논문은 스폰서 검색 광고의 수익 극대화를 위해 “게임이론적 머신러닝”이라는 새로운 패러다임을 제시한다. 기존 연구는 크게 두 갈래로 나뉘는데, 하나는 완전 정보와 완전 합리성을 가정한 게임이론적 접근으로, 다른 하나는 입찰 데이터가 i.i.d.라는 가정 하에 머신러닝으로 직접 최적 메커니즘을 학습하는 방법이다. 두 접근 모두 실제 환경에서의 비현실적인 가정(예: 광고주의 가치 분포 공개, 광고주의 완전 최적 반응) 때문에 실용성이 제한된다. 저자들은 이러한 한계를 극복하기 위해 광고주의 행동을 “메커니즘 의존적”인 마코프 과정으로 모델링한다. 구체적으로, 광고주는 자신의 이전 입찰과 KPI(노출수, 클릭수, 평균 클릭당 비용)만을 관찰하고, 이 정보를 기반으로 다음 입찰을 결정한다는 가정을 두었다. 이때 KPI는 검색 엔진이 제공하는 신호이며, 광고주는 이를 통해 기대치와 실제 성과의 차이를 보정한다.
마코프 전이 행렬은 광고주별, KPI별로 추정되며, 두 가지 추정 방법이 제시된다. 첫 번째는 관측된 전이 빈도를 그대로 사용한 비모수적 추정이며, 두 번째는 평균 μ가 현재 입찰과 KPI의 선형 결합으로 결정되는 절단 가우시안 형태의 파라메트릭 모델이다. 이렇게 학습된 광고주 행동 모델은 주어진 경매 메커니즘 f에 대해 미래 입찰 시퀀스를 시뮬레이션할 수 있다. 시뮬레이션된 입찰 데이터를 이용해 경험적 수익 R(f,g,S)를 계산하고, 이 값이 시간 horizon이 무한대로 갈 때 수렴함을 정리로 증명한다.
외부 최적화 단계는 경험적 수익을 목적함수로 하는 비선형, 비볼록 최적화 문제이며, 저자는 유전 프로그래밍(GP)을 선택한다. GP는 경매 메커니즘을 함수 형태(g(x)=t^α 등)로 표현하고, 교차·돌연변이 연산을 통해 새로운 메커니즘 후보를 생성한다. 각 후보는 학습된 마코프 모델을 통해 생성된 입찰 시퀀스에 대해 수익을 평가받으며, 적합도 기반 선택 과정을 거쳐 점진적으로 개선된다.
실험에서는 실제 검색 로그와 광고주 입찰 데이터를 사용해 베이스라인인 기존 GSP, 고정 α값을 갖는 GSP 변형, 그리고 머신러닝 기반 직접 최적화 방법과 비교한다. 결과는 제안된 메커니즘이 평균 수익 측면에서 5~12% 정도의 개선을 보이며, 특히 KPI 변동이 큰 광고주군에서 더 큰 효과를 나타낸다. 이는 광고주 행동을 명시적으로 모델링함으로써 “두 번째 효과”(광고주가 메커니즘 변화에 반응해 입찰을 조정하는 현상)를 효과적으로 포착했기 때문이다.
이 논문의 주요 기여는 (1) 광고주 행동을 메커니즘 의존적 마코프 모델로 정량화한 점, (2) 이 모델을 이용해 경험적 수익을 장기적으로 수렴하도록 정의한 점, (3) 유전 프로그래밍을 통해 복합적인 메커니즘 설계 공간을 탐색한 점이다. 또한, 이중 최적화 프레임워크는 기존 게임이론·머신러닝 접근을 하나의 수학적 모델로 통합함으로써, 향후 다른 온라인 마켓플레이스(예: 전자상거래, 디지털 콘텐츠)에도 확장 가능성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기