광고 추천을 혁신하는 하나의 생성 모델 GPR
초록
GPR은 광고 추천을 다단계 파이프라인에서 벗어나, 사용자 행동과 광고·유기 콘텐츠를 통합 토큰으로 표현하고, 이 토큰들을 하나의 생성 모델로 학습·추론한다. 통합 입력 스키마·RQ‑Kmeans+ 양자화·이중 디코더(HHD)·다단계 공동 학습(MTP·VAFT·HEPO)을 도입해 효율성과 유연성을 동시에 확보했으며, 텐센트 위챗 채널에 실서비스 적용해 GMV·CTCVR 등 핵심 지표를 크게 향상시켰다.
상세 분석
본 논문은 기존 광고 추천 시스템이 갖는 “목표 불일치”와 “오류 전파” 문제를 근본적으로 해결하고자, 전체 파이프라인을 하나의 생성 모델로 재구성한 GPR(Generative Pre‑trained Recommender)을 제안한다. 첫 번째 핵심은 통합 입력 스키마이다. 사용자 속성(U‑Token), 유기 콘텐츠(O‑Token), 광고 환경(E‑Token), 광고 아이템(I‑Token) 네 종류의 토큰을 순차적으로 배치함으로써, 이질적인 행동 로그를 동일한 시퀀스에 매핑한다. 특히 O‑Token·I‑Token을 RQ‑Kmeans+ 양자화기로 변환해 고차원 임베딩을 의미론적 ID(예: <a_0>, <b_2>)로 압축한다. 기존 RQ‑Kmeans와 VAE 기반 양자화가 겪던 코드북 붕괴와 잠재공간 불안정 문제를, 고품질 초기 코드북과 잔차 연결을 결합한 RQ‑Kmeans+가 효과적으로 완화한다.
두 번째 혁신은 **Heterogeneous Hierarchical Decoder (HHD)**이다. HHD는 크게 세 모듈로 구성된다. ① **Heterogeneous Sequence‑wise Decoder (HSD)**는 Hybrid Attention과 토큰‑별 Normalization·FFN을 적용해 사용자 행동 전체를 이해하고, 의도 임베딩을 생성한다. 여기서 Hybrid Attention은 토큰 종류에 따라 마스크를 조정해 U/O/E 토큰 간 양방향 상호작용을 허용하고, 추가적인 가중치 U를 통해 중요도 조절이 가능하도록 설계되었다. ② **Progressive Token‑wise Decoder (PTD)**는 “Thinking‑Refining‑Generation” 흐름을 따르며, 먼저 ‘Thinking Token’으로 잠재 의도를 탐색하고, 이어서 ‘Refining Token’을 통해 구체적인 광고 아이템을 생성한다. 이는 단순 토큰‑예측보다 깊이 있는 추론을 가능하게 한다. ③ **Hierarchical Token‑wise Evaluator (HTE)**는 각 후보 토큰에 대한 비즈니스 가치(예: 예상 입찰가·전환가치)를 추정하고, 이를 기반으로 Trie‑based Beam Search와 Value‑Guided Pruning을 수행한다. 따라서 생성 단계에서 실시간 예산·타깃 제약을 반영하면서도 높은 정확도를 유지한다.
세 번째 핵심은 다단계 공동 학습 전략이다. (1) **Multi‑Token Prediction (MTP)**은 기존의 단일 토큰 로스가 갖는 학습 효율성 한계를 극복하기 위해, 연속된 토큰 시퀀스를 동시에 예측하도록 설계했다. (2) **Value‑Aware Fine‑Tuning (VAFT)**는 클릭·전환 등 비즈니스 KPI를 직접 손실에 포함시켜, 모델이 단순 예측 정확도가 아니라 실제 매출·ROI와 정렬되도록 한다. (3) **Hierarchy Enhanced Policy Optimization (HEPO)**는 강화학습 기반 정책 최적화에 HHD의 계층 구조 정보를 활용해, 상위 의도 단계와 하위 아이템 단계가 일관된 정책을 학습하도록 유도한다. 이 세 단계가 순차적으로 혹은 교차 학습됨으로써, 관심 모델링, 가치 정렬, 정책 최적화가 하나의 파라미터 집합에 통합된다.
실제 서비스 적용 결과, 텐센트 위챗 채널 광고 시스템에 GPR을 배치한 A/B 테스트에서 GMV가 평균 12% 상승하고, CTCVR(클릭‑전환‑비율)도 8% 이상 개선되었다. 특히, 기존 다단계 파이프라인 대비 추론 지연 시간은 30% 이하로 감소했으며, 모델 업데이트 주기도 일일 단위에서 실시간 스트리밍 수준으로 단축되었다. 이는 GPR이 대규모 실시간 광고 환경에서 효율성·유연성·비즈니스 가치를 동시에 만족시키는 첫 번째 엔드‑투‑엔드 생성 모델임을 입증한다.
요약하면, GPR은 (1) 이질적인 광고·유기 데이터를 하나의 토큰 시퀀스로 통합, (2) 계층적 이중 디코더로 사용자 의도와 광고 생성을 분리·협업, (3) 다단계 가치‑정렬 학습으로 전사적 목표에 부합하는 최적화를 구현한다. 이러한 설계는 기존 캐스케이딩 구조의 복잡성을 크게 낮추고, LLM 기반 생성 모델이 실제 산업용 광고 시스템에 적용될 수 있는 실용적 로드맵을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기