대규모 소셜 네트워크 광고 노출 최적화를 위한 인과 기반 하이브리드 온라인 적응 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 광고 노출량을 개인화하면서 사용자 경험과 전환율을 동시에 최적화하고, 운영 제약을 만족시키기 위해 프라임-듀얼 방식과 베이지안 최적화(Bayesian Optimization)를 결합한 하이브리드 프레임워크 CTRCBO를 제안한다. 인과 추론 모델에서 얻은 반사실(counterfactual) 효과를 가우시안 프로세스(GP) 서러게이트에 통합하고, 코호트 기반 신뢰 영역(trust‑region) 업데이트를 통해 고차원 정책 공간을 효율적으로 탐색한다. 대규모(10억 사용자) 실험에서 기존 CBO 대비 수렴 속도가 크게 개선되고, 제약 위반이 최소화되었으며, 온라인 A/B 테스트를 통해 실제 매출 및 사용자 유지 지표가 향상된 것을 확인한다.

상세 분석

CTRCBO는 기존 프라임‑듀얼(primal‑dual) 알고리즘이 제공하는 제약 만족 보장과 베이지안 최적화가 제공하는 탐색‑활용 균형을 동시에 활용한다는 점에서 혁신적이다. 먼저, 인과 머신러닝 모델을 통해 각 광고 노출 수준에 대한 사용자 행동(클릭, 체류시간, 이탈률 등)의 반사실 효과를 추정한다. 이 추정값은 GP 서러게이트의 평균 함수에 직접 삽입되어, 목표 함수와 제약 함수 모두에 대한 사전 지식을 강화한다. 결과적으로 서러게이트의 불확실성(분산) 추정이 보다 현실적인 형태를 띠어, 탐색 단계에서 과도한 탐색을 방지하고 빠른 수렴을 가능하게 한다.

알고리즘은 사용자들을 코호트(C)로 분할하고, 각 코호트마다 독립적인 신뢰 영역(T_r)과 로컬 GP를 학습한다. 이는 고차원 정책 파라미터(θ)의 전역 GP가 겪는 O(N³) 계산 복잡도를 완화하고, 코호트별 특성(예: 광고 민감도) 차이를 반영한다. 매 타임스텝 t에 시스템 컨텍스트(z_t)를 관측한 뒤, 각 코호트 k에 대해 목표 GP f_{k,t}(θ, z_t)와 제약 GP c_{k,t}(θ, z_t)를 업데이트한다. 프라임 단계에서는 다목적 하이퍼볼륨 개선(HVI) 함수를 최대화하면서, 현재 듀얼 변수 λ_t를 가중치로 제약 위반을 페널티화한다. 듀얼 변수는 시간 평균 제약 만족을 보장하도록 PDCBO 방식으로 업데이트되며, λ_{t+1}=hλ_t+∑k w_k c{k,t}(θ_{k,t},z_t)+εe_i 형태를 취한다.

신뢰 영역은 정책 실행 결과에 따라 동적으로 확장·축소된다. 성공적인 정책(제약을 만족하고 목표를 초과)에서는 영역을 확대해 탐색 범위를 넓히고, 실패 시 축소해 안전한 지역에 머문다. 이 메커니즘은 온라인 광고 시스템에서 일일 변동성이 큰 사용자 행동을 안정적으로 추적하게 한다.

이론적 분석에서는 MORBO의 O(√T) 하이퍼볼륨 레그레트와 PDCBO의 O(√γ_T √T) 제약 레그레트를 결합해 전체 레그레트가 서브리니어임을 증명한다. 실험에서는 합성 데이터와 실제 서비스 데이터를 모두 사용했으며, CTRCBO가 기존 CBO 대비 평균 2.3배 빠르게 수렴하고, 제약 위반 비율을 0.8% 이하로 낮췄다. 특히, 온라인 A/B 테스트에서 광고 점수(CTR) 0.27% 상승, 광고 노출량 1.12% 감소라는 실질적인 비즈니스 개선을 기록했다.

전반적으로 이 논문은 인과 추론과 베이지안 최적화를 결합한 새로운 프레임워크를 제시함으로써, 대규모 실시간 의사결정 문제에 대한 효율적인 해결책을 제공한다는 점에서 학술적·산업적 의의가 크다.

대규모 소셜 네트워크 광고 노출 최적화를 위한 인과 기반 하이브리드 온라인 적응 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기