시간 인식 하이퍼네트워크와 LLM 기반 워밍스타트로 강화된 스트리밍 밴딧 알고리즘
초록
본 논문은 사용자 선호가 시간에 따라 변하는 스트리밍 추천 환경을 위해, 시간 특성을 입력으로 받아 밴딧 정책의 파라미터를 동적으로 생성하는 하이퍼네트워크와, 대형 언어 모델(LLM)을 활용한 오프라인 데이터 증강·워밍스타트 기법을 결합한 HyperBandit+를 제안한다. 저차원 저랭크 압축을 적용해 실시간 학습 비용을 낮추면서, 이론적으로 서브선형 regret 상한을 증명하고, 실제 데이터셋에서 기존 최첨단 방법들을 지속적으로 능가함을 실험적으로 입증한다.
상세 분석
HyperBandit+는 두 가지 핵심 모듈로 구성된다. 첫 번째는 시간‑aware 하이퍼네트워크이다. 시간 변수 p∈{0,…,34}를 임베딩 s_p에 매핑하고, 이를 입력으로 하여 사용자‑아이템 선호 행렬 Θ*_p의 파라미터를 생성한다. 이렇게 하면 매 시간 구간마다 별도의 선호 모델을 학습할 필요 없이, 하나의 하이퍼네트워크가 시간에 따른 주기적 변동을 자동으로 캡처한다. 저차원 저랭크 분해(τ(d_a+d_u))를 적용해 파라미터 공간을 압축함으로써, 온라인 스트리밍 환경에서의 학습·추론 지연을 크게 감소시킨다. 두 번째는 LLM Start이다. 사전 학습된 대형 언어 모델을 이용해 사용자·아이템 메타데이터를 풍부하게 보강하고, “시뮬레이션 인터랙션”을 단계별로 생성한다. 이 과정에서 LLM은 도메인 지식과 일반 상식을 활용해 현실적인 클릭/스킵 라벨을 예측하고, 이를 통해 오프라인에서 충분한 학습 데이터를 확보한다. 결과적으로 초기 온라인 단계에서의 탐험‑활용 불균형을 완화하고, 빠른 수렴을 가능하게 한다. 이론적 분석에서는 하이퍼네트워크 파라미터 추정 오차와 LLM 기반 워밍스타트의 초기 손실을 모두 포함한 복합 regret bound R_T = O(√(T·logT) + τ·logT) 를 도출한다. 실험에서는 Foursquare‑NYC POI 데이터와 짧은 동영상 플랫폼(Kuai) 데이터를 사용해, 시간‑주기성(주간·일일)과 데이터 희소성을 모두 고려한 상황에서 HyperBandit+가 누적 보상, 클릭‑스루율(CTR), 그리고 초기 1주일 동안의 regret 측면에서 기존 Contextual Bandit(LinUCB, Sliding‑Window, Piecewise‑Stationary) 및 최신 하이퍼네트워크 기반 모델을 크게 앞선다. 특히, LLM Start 없이 학습한 경우 초기 성능이 급격히 저하되는 반면, LLM Start를 적용하면 첫 1000 라운드에서도 거의 최적에 근접한 보상을 얻는다. 한계점으로는 LLM 생성 데이터의 품질이 프롬프트 설계에 민감하고, 하이퍼네트워크가 지나치게 복잡해질 경우 과적합 위험이 존재한다는 점을 들 수 있다. 향후 연구에서는 적응형 프롬프트 최적화와 메타‑학습 기반 하이퍼네트워크 구조를 탐색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기