초대형 라이브스트리밍 추천을 위한 스케일링 랭킹 모델 Zenith
초록
Zenith는 고차원 Prime Token을 중심으로 Token Fusion과 Token Boost 모듈을 결합해, 대규모 라이브스트리밍 환경에서도 낮은 지연 시간으로 복잡한 피처 상호작용을 학습한다. TikTok Live에 실제 적용한 결과, 온라인 CTR AUC가 1.05% 상승하고, 시청 세션·시청 시간 지표가 각각 9.93%와 8.11% 향상되었다.
상세 분석
Zenith는 기존 추천 모델이 수천 개의 희소 피처를 그대로 처리하던 방식을 탈피한다. 먼저, 모든 입력 피처를 카테고리별로 집계한 뒤 다층 퍼셉트론(MLP)으로 고차원 Prime Token 으로 변환한다. 이 과정에서 토큰 수 T 는 원래 피처 수 K 에 비해 현저히 작아져 T ≪ K 가 된다. 토큰 수를 줄이면서도 각 토큰이 다수의 의미적 연관 피처를 포함하도록 설계함으로써, 토큰당 정보량을 극대화한다.
Token Fusion 단계에서는 두 가지 구현체를 제시한다. 기본 Zenith는 Retokenized Self‑Attention(RSA)을 사용한다. RSA는 기존 Self‑Attention에 Retokenization 레이어를 추가해, 토큰 간 교환을 촉진하고, 부족한 토큰 수를 보완하기 위해 보조 MLP가 새로운 토큰을 생성한다. Zenith++는 Token‑wise Multi‑head Self‑Attention(TM HSA)를 도입해, 각 토큰에 대해 독립적인 헤드 집합을 적용함으로써 토큰 이질성을 유지한다. 이때 Q, K, V 행렬을 토큰별로 별도 학습시켜, 토큰 간 상호작용을 정교하게 제어한다.
Token Boost 단계는 토큰 자체의 표현력을 강화한다. 기본 버전은 Token‑wise SwiGLU(T SwiGLU)를 적용, 각 토큰에 비선형 게이트와 선형 변환을 결합해 표현을 풍부하게 만든다. Zenith++는 Token‑wise Sparse Mixture‑of‑Experts(TSMoE)를 도입, 여러 전문가 네트워크 중 일부만 활성화해 계산 비용을 제한하면서도 모델 용량을 기하급수적으로 확대한다. 라우터는 Softmax 기반으로 토큰별 전문가 선택 확률을 계산하고, 선택된 전문가만 전방전파에 참여한다.
스케일링 법칙 측면에서, 저자들은 파라미터 수와 FLOPs에 대한 성능 향상이 기존 DLRM·Hiformer·Wukong 대비 더 완만한 감소율을 보이며, 특히 깊이 N 이 증가할수록 토큰 이질성을 유지하는 것이 성능 정체를 방지한다는 점을 실험적으로 입증한다.
실험에서는 TikTok Live의 실제 트래픽(수십억 사용자, 수백만 동시 요청)에서 온라인 A/B 테스트를 수행했다. Zenith는 기준 모델 대비 CTR AUC +1.05%, Logloss ‑1.10% 개선을 기록했으며, Quality Watch Session / User +9.93%, Quality Watch Duration / User +8.11%라는 실질적인 비즈니스 지표 상승을 달성했다. 오프라인 벤치마크에서도 파라미터 2배, FLOPs 1.5배 확대 시 성능이 선형에 가깝게 상승함을 확인했다.
전체적으로 Zenith는 (1) Prime Token 기반의 차원 축소와 고차원 표현, (2) Token Fusion을 통한 효율적 상호작용 학습, (3) Token Boost를 통한 개별 토큰 표현 강화, (4) Sparse MoE를 활용한 용량 확장이라는 네 가지 핵심 설계를 결합해, 대규모 실시간 추천 시스템에서 모델 규모와 추론 지연 사이의 트레이드오프를 크게 완화한다는 점이 가장 큰 공헌이다.
댓글 및 학술 토론
Loading comments...
의견 남기기