제약 인식 생성형 자동입찰: 파레토 우선 순위와 반사실 후회 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PRO‑Bid은 Decision Transformer 기반 자동입찰에 두 가지 핵심 메커니즘을 도입한다. 첫째, 비용‑가치 두 흐름을 별도로 추적하는 Constraint‑Decoupled Pareto Representation(CDPR)으로 비용 인식을 회복하고 파레토 프론티어 기반 샘플링으로 고효율 데이터를 강조한다. 둘째, Global Outcome Predictor와 결합한 Counterfactual Regret Optimization(CRO)으로 실제보다 더 나은 가상 행동을 찾아 가중 회귀 목표로 사용한다. 실험 결과, 두 공개 벤치마크와 AliExpress 온라인 A/B 테스트에서 제약 만족도와 가치 획득 모두 기존 최첨단 방법을 크게 앞선다.

상세 분석

PRO‑Bid은 자동입찰이라는 장기 순차 의사결정 문제에 제약 인식을 강화하고, 단순 평균 회귀의 한계를 넘어서는 두 단계의 설계를 제시한다. 첫 번째 단계인 Constraint‑Decoupled Pareto Representation(CDPR)은 기존 Decision Transformer가 Return‑to‑Go(RTG)만을 조건으로 사용해 비용 차원을 무시함으로써 발생하는 상태 별칭(state aliasing) 문제를 해결한다. 비용‑to‑Go(Ct)와 가치‑to‑Go(Rt)를 각각 재귀적으로 정의하고, 입력 시퀀스에 (Rt, Ct, st, at) 형태로 삽입함으로써 에이전트가 남은 예산과 목표 가치의 동시 변화를 정확히 파악하도록 만든다. 이중 흐름은 예산 초과 시 Ct가 급격히 감소하고, 정책이 자동으로 보수적인 입찰값을 선택하도록 유도한다.

두 번째로, CDPR은 파레토 프론티어 기반 경험 필터링을 도입한다. 로그 데이터는 효율이 낮은 궤적이 다수 존재하는데, 각 궤적을 (R, C) 좌표로 정규화하고 비지배 여부를 판단해 파레토 프론티어를 구성한다. 이후 효율 점수(프론티어와의 거리), 준수 점수(목표 CPA 대비 위반 정도), 풍부도 점수(에피소드 길이)를 곱해 최종 샘플링 가중치 Q_i를 산출한다. 이 가중치는 고효율·제약 준수·다양성을 동시에 만족하는 궤적을 학습에 집중시켜, 모델이 노이즈와 하위 행동에 과도히 적응하는 것을 방지한다.

두 번째 메커니즘인 Counterfactual Regret Optimization(CRO)은 단순 MSE 회귀를 넘어선 액티브 학습을 수행한다. Transformer 백본 위에 Gaussian Action Head를 두어 정책 π_θ(a_t|·)를 정규분포로 모델링하고, NLL 손실로 기존 행동을 앵커링한다. 동시에 Global Outcome Predictor φ_ω는 현재까지의 상태·행동 시퀀스를 입력으로 받아 미래 누적 가치와 비용을 예측한다. 이 예측기를 이용해 현재 정책이 샘플링한 가상 행동 a’_t에 대한 “후회” 값을 계산한다. 구체적으로, a’_t가 실제 행동 a_t보다 높은 효용(가치‑비용 비율)과 제약 준수를 보이면, 해당 (a’_t, 예측된 결과) 쌍을 가중 회귀 목표로 사용한다. 가중치는 후회 정도에 비례하도록 설계돼, 정책이 점진적으로 파레토 프론티어에 가까운 행동을 학습하도록 만든다.

실험에서는 두 개의 공개 데이터셋(예: Criteo, Avazu)과 Alibaba 내부 AliExpress 캠페인에 대한 온라인 A/B 테스트를 수행했다. 주요 평가지표는 목표 CPA 만족률, 총 전환수(GMV), 그리고 ROI이다. PRO‑Bid은 CPA 목표를 95% 이상 정확도로 만족시키면서, 전환수와 ROI에서 기존 Decision Transformer 기반 베이스라인보다 각각 12%·9% 정도 향상시켰다. 특히, CRO를 적용하지 않은 CDPR 단독 모델은 제약 만족도는 비슷했지만 가치 측면에서 4% 정도 뒤처졌다. 이는 고품질 가상 행동을 활용한 학습이 실제 비즈니스 성과에 직접적인 이점을 제공함을 시사한다.

전체적으로 PRO‑Bid은 (1) 비용·가치를 명시적으로 분리해 제약 인식을 회복, (2) 파레토 기반 데이터 가중치로 학습 효율을 극대화, (3) 글로벌 시뮬레이터와 후회 기반 가상 행동을 통해 정책을 제약 경계 쪽으로 적극적으로 이동시키는 세 가지 혁신을 결합한다. 이러한 설계는 온라인 광고뿐 아니라, 예산·비율 제약이 존재하는 다른 순차 의사결정 도메인에도 일반화 가능성을 보여준다.

제약 인식 생성형 자동입찰: 파레토 우선 순위와 반사실 후회 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기