효율적 스케일링을 위한 통합형 CTR 예측 트랜스포머 EST

효율적 스케일링을 위한 통합형 CTR 예측 트랜스포머 EST
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EST는 사용자 행동, 비행동 피처, 후보 행동을 하나의 시퀀스로 통합해 손실 없는 모델링을 구현한다. 경량 교차‑Attention(LCA)으로 비행동‑행동 간 핵심 상호작용만을 남기고, 콘텐츠 기반 희소‑Attention(CSA)으로 고신호 행동을 동적으로 선택한다. 실험에서 파라미터·연산량 증가에 따라 안정적인 파워‑법칙 스케일링을 보이며, 타오바오 디스플레이 광고에 적용해 RPM 3.27%·CTR 1.22% 향상을 달성했다.

상세 분석

본 논문은 산업 현장의 CTR 예측이 대규모 행동 시퀀스(수천 토큰)와 짧은 비행동 피처(수십 토큰) 사이의 정보 밀도 비대칭 구조를 갖는다는 점을 핵심으로 삼는다. 기존 LLM‑스타일 전역 self‑attention은 모든 토큰 간의 전면 연산을 수행해 연산 비용이 O(L²)로 급증하는데, 행동‑행동 간 상호작용은 대부분 미미한 기여만 한다는 실증 분석을 통해 ‘교차‑Attention이 핵심’이라는 설계를 도출한다. 이를 구현한 Lightweight Cross‑Attention(LCA)는 비행동 토큰을 Query, 행동 토큰을 Key/Value 로 설정해 비행동‑행동 간의 고가치 연결만을 계산하고, 행동‑행동 self‑attention을 크게 축소한다.

또한, 행동 데이터는 ID와 이미지·텍스트 등 풍부한 콘텐츠가 혼재된 멀티모달 특성을 가진다. 논문은 이러한 콘텐츠를 직접 임베딩에 삽입하기보다, 콘텐츠 간 유사도(코사인)로 행동 간 관계를 추정하고, 유사도가 높은 행동만을 선택해 집중적으로 attention을 수행하는 Content Sparse Attention(CSA)를 제안한다. CSA는 동적 토큰 마스킹을 통해 실제 연산량을 O(k·L) (k≪L) 로 감소시키면서도, 중요한 행동을 놓치지 않는다.

EST는 LCA와 CSA를 병렬로 적용하는 레이어 스택을 갖추어, 전체 시퀀스를 손실 없이 유지하면서도 연산 효율성을 확보한다. 실험에서는 모델 규모를 10M→300M 파라미터까지 확대했을 때, AUC와 LogLoss가 전형적인 파워‑법칙 형태로 꾸준히 향상되는 것을 확인했다. 이는 ‘스케일링 법칙’이 CTR 도메인에서도 적용 가능함을 실증한다.

산업 적용 측면에서는 Taobao 디스플레이 광고 시스템에 EST를 배포해, 기존 계층형 집계 모델 대비 RPM 3.27%, CTR 1.22%의 실질적인 매출·클릭 상승을 기록했다. 배포 환경에서는 1ms 이하의 레이턴시 제한을 만족하면서도, 행동 시퀀스 길이 1k 토큰을 그대로 처리할 수 있었다.

한계점으로는 CSA의 동적 선택 기준이 콘텐츠 유사도에 크게 의존하므로, 콘텐츠 품질이 낮은 경우 성능 저하 가능성이 있다. 또한, LCA는 비행동 피처가 충분히 풍부하지 않을 경우 교차‑Attention 효과가 감소할 수 있다. 향후 연구에서는 멀티모달 프리트레인된 인코더와의 결합, 그리고 행동‑행동 간 선택적 상호작용을 학습적으로 최적화하는 방법을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기