검증 정렬 최적화 기반 교차 작업 생성 자동 입찰
초록
VAO는 검증 데이터의 성능 피드백을 이용해 교차 작업 데이터의 기여도를 동적으로 재가중함으로써, 데이터가 부족한 자동 입찰 태스크에 보조 작업의 지식을 효과적으로 전달한다. 검증 정렬 최적화는 목표 태스크의 일반화 오차를 최소화하도록 학습 과정을 정렬하고, 이를 기반으로 단일 모델이 여러 입찰 목표를 동시에 다룰 수 있는 통합 생성형 자동 입찰 프레임워크를 제시한다. 실험 결과, 기존의 단순 데이터 공유 방식과 최신 멀티태스크·전이 학습 기법을 크게 능가한다.
상세 분석
본 논문은 온라인 광고에서 자동 입찰(autobidding) 모델이 데이터 부족 문제에 직면했을 때, 서로 다른 광고 목표를 가진 다수의 태스크 간에 데이터를 공유하는 방법을 체계적으로 탐구한다. 기존의 교차 작업 데이터 공유는 단순히 모든 로그를 풀링하고 라벨을 재조정하는 방식으로 구현되었으며, 이는 데이터 양이 많은 작업이 손실 함수에 과도하게 기여하게 만들어 목표 작업에 대한 분포 이동(distribution shift)으로 인한 편향을 초래한다. 논문은 이를 정량화하기 위해 Rademacher 복잡도와 총 변동 거리(TV distance)를 이용한 일반화 경계식을 제시하고, 데이터 비례 가중치 α_i가 분포 차이 d_TV(P_i, P_k)와 결합될 때 발생하는 편향(bias) 항이 목표 작업의 성능을 크게 저해함을 증명한다.
VAO(Validation‑Aligned Optimization)는 이러한 편향을 완화하기 위해 검증 집합을 활용한다. 구체적으로, 각 보조 작업 i에 대해 검증 데이터에서 측정된 목표 손실 감소량을 기반으로 가중치 w_i를 업데이트한다. 이 과정은 메타‑최적화 형태로 구현되며, 외부 검증 손실을 최소화하는 방향으로 전체 학습 단계의 그래디언트를 재조정한다. 수식적으로는 목표 작업의 기대 그래디언트 g_k와 보조 작업의 교차 그래디언트 g_ik 사이의 차이를 최소화하도록 w_i를 최적화한다(식 4). 이렇게 하면 데이터 양이 많지만 목표와 멀리 떨어진 작업은 자동으로 낮은 가중치를 부여받고, 데이터가 적지만 목표와 구조적으로 유사한 작업은 높은 가중치를 얻어 효과적인 지식 전이가 이루어진다.
또한 논문은 VAO를 단일 모델에 적용하기 위한 통합 생성형 자동 입찰 아키텍처를 설계한다. 입력 토큰으로 광고주 특성, 현재 상태, 목표 KPI 등을 포함하고, 다중 헤드 디코더(CPA, ROI, GMV 등)를 통해 각 작업별 제약을 동시에 만족시키는 입찰 시퀀스를 샘플링한다. 이 구조는 파라미터 공유를 극대화하면서도 작업별 임베딩을 통해 미세 조정을 가능하게 한다.
실험에서는 Alibaba 내부 데이터와 공개 벤치마크를 사용해 BCB(예산 제한), TargetROAS, CPA‑MCB 등 세 가지 대표 태스크를 대상으로 비교한다. VAO는 단순 데이터 풀링이 오히려 성능을 저하시키는 경우에도 목표 작업의 MSE를 평균 12% 이상 감소시켰으며, 최신 멀티태스크 학습(MTL) 및 도메인 적응 기법에 비해 4~7%의 추가 이득을 보였다. 특히 데이터가 극히 적은 CPA‑MCB에서 VAO는 기존 방법 대비 15% 이상의 ROI 향상을 달성했다.
이론적 분석과 실증 결과를 종합해볼 때, VAO는 교차 작업 데이터 공유 시 발생하는 분포 편향을 검증 기반 가중치 조정으로 효과적으로 보정한다는 점에서 의미가 크다. 또한, 검증 데이터가 충분히 확보된 실무 환경에서는 메타‑최적화 비용이 크게 부담되지 않으며, 단일 모델로 다중 목표를 동시에 다룰 수 있는 확장성도 갖춘다. 향후 연구에서는 온라인 실시간 피드백을 활용한 동적 VAO, 그리고 비정형 로그(예: 클릭스트림)와의 결합을 통해 더욱 일반화된 자동 입찰 시스템을 구축할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기