OneLive 실시간 스트리밍 추천을 위한 동적 통합 생성 프레임워크
초록
OneLive는 실시간 스트리밍 환경의 동적 콘텐츠, 짧은 수명, 실시간 응답 제약 및 다중 목표 최적화를 고려한 생성형 추천 시스템이다. 동적 토크나이저, 시간 인식 게이트 어텐션, 순차적 다중 토큰 예측 및 QK 정규화가 적용된 디코더‑전용 트랜스포머와 강화학습 기반 다목표 정렬 모듈을 결합해 효율성과 정확성을 동시에 달성한다. Kuaishou 실서비스에 적용돼 핵심 비즈니스 지표를 크게 향상시켰다.
상세 분석
OneLive는 기존 생성형 추천(Generative Recommendation, GR) 모델이 정적 토큰화와 고정된 아이템 풀을 전제로 설계된 한계를 실시간 스트리밍에 맞게 전면 개편한다. 첫 번째 핵심은 동적 토크나이저이다. 저자는 멀티모달 라이브 세그먼트를 30초 슬라이딩 윈도우로 추출하고, 대형 언어 모델(LLM)을 경량화한 멀티모달 LLM(MLLM)으로 실시간 임베딩을 생성한다. 이 임베딩은 정적 저자 속성과 가중치 λ를 통해 게이팅된 융합을 거쳐 저자 임베딩을 만든 뒤, 사용자 행동(댓글, 선물, 클릭 등)과의 교차‑탑 구조를 이용해 실시간 협업 후정렬을 수행한다. 이렇게 얻은 IA 임베딩은 Residual K‑means 기반 잔차 양자화 과정을 거쳐 다중 레벨 코드북(코드 ID)으로 압축된다. 코드 활용률(UR)과 충돌률(CR)을 실험적으로 검증한 결과, 512‑512‑512 레벨 조합이 99 % 이상의 활용률과 28 % 이하의 충돌률을 달성해 대규모 실시간 서비스에 적합함을 보여준다.
두 번째 혁신은 **시간 인식 게이트 어텐션(Time‑Aware Gated Attention)**이다. 기존 트랜스포머는 순서 정보를 위치 인코딩에만 의존하지만, 라이브 스트리밍은 “시작‑성장‑피크‑감소‑종료”라는 명확한 시간 흐름을 갖는다. 저자는 각 토큰에 현재 스트리밍 단계와 남은 노출 시간 정보를 게이트에 주입하고, Q‑K 정규화(QK Norm)를 적용해 어텐션 스코어의 스케일을 안정화한다. 이를 통해 모델은 시점에 따라 급격히 변하는 사용자 선호를 빠르게 반영하면서도 학습 발산을 방지한다.
세 번째로 제안된 **순차적 다중 토큰 예측(Sequential MTP)**은 디코더‑전용 구조에서 토큰을 한 번에 전체 예측하는 대신, 이전 토큰을 조건으로 하여 차례로 예측하도록 설계했다. 이 방식은 Beam Search와 결합해 후보 생성 속도를 2‑3배 가속화하면서도 품질 저하를 최소화한다. 또한, QK Norm을 어텐션 전후에 삽입해 정규화된 쿼리·키 벡터를 사용함으로써 대규모 배치 학습 시 메모리 사용량을 감소시키고, GPU 활용 효율을 높였다.
마지막으로 **다목표 정렬 프레임워크(Unified Multi‑Objective Alignment Framework)**는 강화학습(RL) 기반 정책 최적화와 앙상블 랭킹 보상 모델을 결합한다. 클릭, 공유, 팔로우, 선물 등 서로 다른 가중치를 가진 행동을 하나의 보상 함수로 통합하고, DPO/GRPO 손실을 적용해 정책 네트워크를 미세조정한다. 이렇게 하면 단일 모델이 다중 KPI를 동시에 최적화할 수 있어, 기존 단계별 파이프라인에서 발생하던 목표 불일치를 해소한다.
실험 결과, 오프라인 벤치마크에서 OneLive는 기존 OneRec·GR 기반 모델 대비 NDCG@10을 7 % 이상, CTR을 5 % 이상 향상시켰으며, 실시간 추론 지연은 30 ms 이하로 유지했다. Kuaishou 라이브 서비스에 A/B 테스트를 적용했을 때, 평균 시청 시간, 선물 금액, 신규 팔로워 수 등 핵심 비즈니스 지표가 각각 8 %‑12 % 상승했다. 이는 동적 토크나이저와 시간 인식 어텐션이 실시간 콘텐츠 변동을 정확히 포착하고, 다목표 정렬이 사용자 행동 다양성을 효과적으로 반영했기 때문으로 해석된다. 전체적으로 OneLive는 대규모 실시간 스트리밍 환경에서 생성형 추천 모델의 확장성, 효율성, 그리고 비즈니스 가치 창출을 동시에 달성한 최초의 사례라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기