시퀀스 인식 제약 최적화 기반 쿠폰 배포 프레임워크
초록
본 논문은 전자상거래 플랫폼에서 다중 사용자와 다중 라운드에 걸친 쿠폰 발행 결정을 최적화하기 위해, 시퀀스 정보를 활용하고 예산 제약을 동시에 고려한 SACO(Sequence‑Aware Constrained Optimization) 프레임워크를 제안한다. 기존의 단일 라운드·두 단계 방식과 달리, 트랜스포머 기반의 Decision Transformer를 활용해 과거 행동과 비용 정보를 인코딩하고, 라그랑주 듀얼 변수 λ를 모델 입력에 포함시켜 예산 제약을 직접 학습한다. 실험 결과, 산업 현장 로그와 공개·합성 데이터셋에서 평균 3.6% 수준의 매출 향상을 달성하였다.
상세 분석
SACO 프레임워크는 쿠폰 배포라는 전형적인 제한 최적화 문제를 시계열 의사결정 문제로 재구성한다. 먼저, 플랫폼은 N명의 사용자를 대상으로 T라운드 동안 동시에 여러 사용자의 쿠폰 요청을 받으며, 각 라운드에서 K종류의 쿠폰 중 하나를 선택하거나 선택하지 않을 수 있다. 이때 선택된 쿠폰은 되돌릴 수 없으며, 전체 예산 B를 초과해서는 안 된다. 기존 연구는 (1) 단일 사용자·단일 라운드에 초점을 맞추거나, (2) 두 단계(예측 + 최적화) 접근법을 사용해 예산 제약을 간접적으로 다루었다. 이러한 방법은 (a) 사용자 행동의 장기적 의존성을 무시하고, (b) 예측 오류가 최적화 단계에 그대로 전이돼 성능 저하를 초래한다는 한계를 가진다.
SACO는 이러한 한계를 극복하기 위해 다음과 같은 핵심 설계를 도입한다. 첫째, 로그 데이터를 사용자‑별 트래젝터리 형태로 정렬하고, 상태 (s), 행동 (a), 누적 보상 (RTG), 누적 비용 (CTG) 그리고 라그랑주 듀얼 변수 λ를 포함한 시퀀스 샘플을 생성한다. λ는 예산 제약의 강도를 조절하는 파라미터로, 학습 시 무작위로 10배 확대하여 모델이 다양한 예산 수준에 일반화될 수 있게 한다. 둘째, Decision Transformer 구조를 기반으로 한 인과‑트랜스포머를 사용한다. 입력 임베딩 단계에서 상태, 행동, RTG, CTG, 시간 t, 그리고 λ를 각각 임베딩하고 합산해 시퀀스 토큰을 만든다. 이렇게 구성된 토큰은 다중 레이어의 인코더‑디코더 블록을 통과하면서 자기‑주의 메커니즘을 통해 과거 행동과 비용이 현재 결정에 미치는 인과적 영향을 학습한다. 특히, 인과‑트랜스포머는 미래 보상을 예측하는 동시에 현재 행동이 예산에 미치는 영향을 동시에 추정할 수 있어, 제한 최적화 문제를 직접적인 정책 학습 형태로 변환한다.
수학적으로는 원문에서 제시한 라그랑주 듀얼 문제를 이용한다. 라그랑주 승수 λ를 고정하면 원래의 목적식은 “보상 − λ·비용”을 최대화하는 형태가 되며, 이는 전형적인 다중 선택 배낭 문제와 동일하다. SACO는 λ를 모델 입력으로 취함으로써, 매 라운드마다 현재 남은 예산에 대응하는 λ 값을 동적으로 조정한다. 이렇게 하면 예산이 소진될 위험을 사전에 감지하고, 비용 효율이 낮은 쿠폰을 회피하도록 정책이 스스로 학습한다.
학습 과정은 표준 RL‑style의 오프라인 정책 학습과 유사하지만, 실제 온라인 탐색을 필요로 하지 않는다. 로그 데이터만을 사용해 행동‑보상‑비용 쌍을 관찰하고, 트랜스포머가 시퀀스 전체를 한 번에 처리함으로써 샘플 효율성을 크게 높인다. 또한, 모델‑병렬 추론을 통해 매 라운드에 다수 사용자에 대한 쿠폰 결정을 동시에 수행할 수 있어, 실시간 서비스에 적용 가능한 낮은 레이턴시를 보장한다.
실험에서는 (1) ByteDance 내부 산업 데이터, (2) 공개 전자상거래 로그, (3) 합성 시뮬레이션 데이터를 사용해 비교하였다. 베이스라인으로는 전통적인 두 단계 모델, 최신 DFL(Decision‑Focused Learning) 모델, 그리고 단일 라운드 기반 Decision Transformer가 포함되었다. 모든 베이스라인 대비 SACO는 평균 3.6%의 매출 증가를 기록했으며, 특히 예산이 제한적인 상황에서 비용 효율성이 크게 개선되었다. 추가적인 Ablation Study에서는 (a) λ 임베딩을 제거했을 때 성능이 1.8% 감소, (b) CTG 입력을 제외했을 때 2.3% 감소하는 등, 제약 정보와 비용 정보를 동시에 활용하는 것이 핵심임을 확인했다. 추론 속도 측면에서도 트랜스포머 기반 구조는 기존 OR‑solver 대비 5배 이상 빠른 응답 시간을 보였다.
전체적으로 SACO는 (i) 시퀀스 의존성을 정밀히 모델링, (ii) 예산 제약을 라그랑주 듀얼 변수로 직접 인코딩, (iii) 트랜스포머 기반의 효율적인 병렬 추론을 통해 실시간 온라인 마케팅에 적합한 프레임워크를 제공한다는 점에서 기존 연구를 크게 앞선다. 향후 연구에서는 다중 목표(예: 사용자 만족도와 장기 LTV)와 비선형 비용 구조를 추가로 고려하는 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기