스트리밍 CTR 예측을 위한 분포 인식 엔드투엔드 임베딩
초록
본 논문은 실시간 데이터 스트림 환경에서 클릭‑Through‑Rate(CTR) 예측에 사용되는 수치형 피처의 임베딩 방법을 제안한다. 기존 정적 구간화 방식은 구간 경계가 바뀔 때 의미론적 드리프트가 발생하고, 순수 신경망 임베딩은 피처 분포 정보를 활용하지 못한다. 저자들은 reservoir sampling 기반의 스트림 분포 추정과 필드‑별 분포 조절 메커니즘을 결합한 DAES 프레임워크를 설계하여, 연속적이고 분포‑인식된 임베딩을 엔드투엔드 방식으로 학습한다. 오프라인·온라인 실험에서 기존 방법들을 크게 앞서며, 실제 짧은 동영상 플랫폼에 적용돼 수억 명의 일일 활성 사용자를 대상으로 서비스되고 있다.
상세 분석
DAES는 수치형 피처 임베딩을 두 단계(분포 추정 → 임베딩)로 나누지 않고, 스트림 환경에서도 실시간으로 분포 정보를 반영할 수 있는 엔드투엔드 구조를 제공한다. 핵심 기술은 (1) Reservoir Sampling 기반 Jump Sampling이다. 이는 고정 메모리(O(N)) 안에서 전체 스트림의 대표 샘플을 유지하면서, 새로운 데이터가 들어올 때 일정 확률로 기존 샘플을 교체한다. 기존 DAE가 순서 통계에 의존해 i.i.d. 가정을 필요로 하는 반면, Jump Sampling은 비정상적인 데이터 흐름에서도 편향을 최소화한다. (2) Quantile Space Encoding이다. 수치값을 직접 임베딩하는 대신, 현재 추정된 누적분포함수(CDF)에서 해당 값이 차지하는 분위수를 구하고, 이를 정규화된 벡터로 변환한다. 이렇게 하면 값의 밀도 차이에 따른 스케일링 효과가 자연스럽게 반영되어, 고밀도 구간에서는 더 세밀한 표현이 가능하고, 저밀도 구간에서는 과도한 파라미터 사용을 억제한다. (3) Field‑Aware Distribution Modulation 두 가지 전략이 제시된다. 첫 번째는 Gating Network로, 각 필드별로 현재 분위수와 히스토리 정보를 입력받아 임베딩 가중치를 동적으로 조절한다. 이는 동일한 수치값이라도 사용자·아이템 등 컨텍스트에 따라 다른 의미를 가질 때, 즉 “가격 p 점이 고가·저가 제품군에서 다르게 해석되는 경우”에 유용하다. 두 번째는 Parameter Generator로, 필드‑특화 파라미터(예: 스케일·오프셋)를 생성해 분위수 벡터에 적용한다. 이 메커니즘은 필드 간 상호작용을 명시적으로 모델링하면서도, 모든 조합을 일일이 저장하지 않아도 되는 효율성을 제공한다. 실험에서는 DAES가 기존 정적 구간화, Neural Embedding, Interpolated Binning, 그리고 DAE와 비교해 AUC·LogLoss 모두 0.5 %~1.2 % 개선을 보였으며, 특히 데이터 분포가 급격히 변하는 시점(예: 프로모션 기간)에서 안정적인 성능을 유지한다. 온라인 A/B 테스트 결과, 클릭률이 평균 3.4 % 상승하고, 비용 대비 전환 효율이 2.1 % 향상되었다. 시스템 측면에서는 Reservoir Sampling이 1 GB 이하 메모리로 수십억 건의 스트림을 처리할 수 있어, 실시간 피처 엔지니어링 파이프라인에 무리 없이 통합된다. 전체 아키텍처는 기존 DeepCTR 모델(Embedding → Interaction → Prediction)과 플러그인 형태로 결합 가능해, 기존 서비스에 최소한의 코드 변경만으로 적용할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기