컨텍스트 기반 광고 CTR 예측을 위한 디코더 전용 트랜스포머 CADET

컨텍스트 기반 광고 CTR 예측을 위한 디코더 전용 트랜스포머 CADET
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CADET는 LinkedIn 광고 시스템에 적용된 디코더‑전용 트랜스포머 모델로, 포스트‑스코어링 컨텍스트(예: 광고 위치)를 멀티‑타워 헤드로 직접 조건화하고, 자기‑게이트 어텐션과 시간 기반 RoPE를 도입해 학습 안정성과 시계열 표현을 강화한다. 세션 마스킹과 엔지니어링 최적화로 온라인‑오프라인 일관성을 유지하면서 대규모 서비스에 적용 가능하며, 실험에서 기존 LiRank 대비 CTR 11.04% 상승을 달성했다.

상세 분석

CADET 논문은 광고 클릭‑예측이라는 산업 현안에 최신 생성형 추천 모델을 적용하면서, 기존 DLRM 기반 접근법이 갖는 한계를 체계적으로 해소한다. 첫 번째 핵심 기여는 컨텍스트‑조건화 디코딩 블록이다. 광고 위치와 같은 포스트‑스코어링 신호는 실시간 스코어링 단계에서 사용할 수 없지만 CTR에 큰 영향을 미친다. CADET는 K개의 독립적인 예측 헤드를 두어 각 컨텍스트 버킷(예: 위치 1, 2‑4, 5+)에 맞는 로그잇을 동시에 출력한다. 학습 시에는 실제 관측된 컨텍스트에 해당하는 헤드만 손실에 기여하도록 라우팅하고, 서비스 시에는 현재 렌더링 컨텍스트에 맞는 헤드의 값을 바로 사용한다. 이 설계는 반복적인 재‑스코어링 없이도 정책‑레디 신호를 제공해 랭킹 루프를 끊는다.

두 번째 기여는 셀프‑게이트 어텐션이다. 기존 멀티‑헤드 어텐션은 토큰 간 상호작용이 과도하게 집중되는 경향이 있어 학습이 불안정해질 수 있다. CADET는 입력 표현 자체와 Q·K 프로젝션에 각각 시그모이드 게이트를 적용한다. 표현‑레벨 게이트는 노이즈가 많은 차원을 억제해 그래디언트 흐름을 개선하고, 인터랙션‑레벨 게이트는 쿼리·키 간 점곱 크기를 제한해 특정 토큰이 어텐션을 독점하는 현상을 방지한다. 실험 결과, 이 메커니즘은 수렴 속도를 높이고 대규모 배치 학습 시 손실 발산을 크게 감소시켰다.

세 번째 혁신은 **시간 기반 로테리 포지셔널 임베딩(RoPE)**이다. 전통적인 RoPE는 순서 인덱스를 회전 각도로 매핑하지만, 광고 도메인에서는 실제 시간 차이가 더 의미 있다. 논문은 Unix 타임스탬프를 직접 회전 각도에 사용하고, Δt_max, φ_min, base 등 하이퍼파라미터를 통해 초단위부터 월단위까지의 스케일을 조정한다. 이 방식은 시계열 패턴을 보다 정밀하게 포착해, 예를 들어 특정 시간대에 광고 클릭률이 급등하거나 감소하는 현상을 모델이 학습하도록 돕는다.

네 번째로 제시된 세션 마스킹 전략은 온라인‑오프라인 일관성을 보장한다. 실시간 서비스에서는 최근 세션 이벤트가 아직 관측되지 않을 수 있는데, 이를 그대로 학습에 활용하면 모델이 존재하지 않는 정보를 의존하게 된다. CADET는 훈련 시 Δdelay보다 최신인 토큰에 대해 마스크를 적용하고, 추론 시에는 후보 광고들을 한 번에 스코어링하면서도 서로 간의 어텐션을 차단하는 특수 마스크를 사용한다. 이 설계는 트레이닝‑서빙 간의 스키우를 최소화한다.

마지막으로 프로덕션 엔지니어링 측면에서, 텐서 패킹·시퀀스 청킹·맞춤형 Flash Attention 커널을 도입해 메모리 사용량을 절감하고 연산 효율을 극대화했다. 특히 멀티‑아이템 스코어링을 한 번의 포워드 패스로 처리함으로써 latency를 크게 낮추었으며, 대규모 광고 로그(수십억 건) 학습을 실시간 파이프라인에 통합할 수 있었다.

실험에서는 오프라인 AUC와 로그 손실 모두 기존 LiRank 대비 유의미한 개선을 보였으며, 온라인 A/B 테스트에서 CTR 11.04% 상승이라는 실질적인 비즈니스 효과를 입증했다. 전체적으로 CADET는 생성형 트랜스포머를 광고 CTR 예측에 성공적으로 적용한 사례로, 컨텍스트 조건화, 안정적인 어텐션 설계, 시간 인코딩, 서비스‑친화적 마스킹 및 엔지니어링 최적화가 결합된 종합 솔루션이라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기