RelayGR 장기 시퀀스 생성 추천을 위한 단계별 릴레이 레이스 추론

RelayGR 장기 시퀀스 생성 추천을 위한 단계별 릴레이 레이스 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RelayGR는 사용자 행동 시퀀스의 앞부분을 사전 추론해 KV 캐시를 HBM에 유지하고, 랭킹 단계에서 재사용함으로써 실시간 추천 시스템의 지연 제한을 넘지 않으면서 1.5배 긴 시퀀스와 3.6배 높은 처리량을 달성한다.

상세 분석

본 논문은 실시간 추천 파이프라인에서 발생하는 “tail‑latency” 제약을 극복하기 위한 새로운 시스템 설계인 RelayGR을 제시한다. 기존의 생성형 추천(Generative Recommendation, GR) 모델은 사용자 행동 로그를 길게 입력받아 높은 품질을 제공하지만, 실제 서비스에서는 랭킹 단계의 P99 지연 예산이 수십 밀리초 수준으로 제한돼 입력 시퀀스 길이가 강제로 짧아진다. 저자들은 GR 모델의 토큰 중 다수가 아이템 후보와 무관한 사용자 행동 정보를 담고 있음을 관찰하고, 이러한 “프리픽스” 토큰을 미리 추론해 캐시해 두면 랭킹 단계에서 재계산 없이 바로 활용할 수 있음을 깨달았다.

RelayGR의 핵심은 세 가지 기술적 기법이다. 첫째, 시퀀스‑인식 트리거는 현재 요청이 “위험” 상태인지(즉, 시퀀스 길이가 길어 캐시가 필요할 가능성이 높은지)를 판단하고, 전체 캐시 용량과 사전 추론 부하를 제한된 범위 내에서만 허용한다. 이를 위해 요청의 행동 길이, 후보 수, 현재 캐시 점유율 등을 실시간으로 평가한다. 둘째, 어피니티‑인식 라우터는 프리픽스를 생성한 인스턴스와 최종 랭킹을 수행할 인스턴스를 동일하게 매핑한다. 이렇게 하면 프리픽스 KV 캐시가 원격 메모리나 네트워크를 통해 이동할 필요가 없으며, HBM에 상주한 상태로 바로 재사용된다. 셋째, 메모리‑인식 익스팬더는 서버 로컬 DRAM을 활용해 짧은 시간 내에 여러 요청 간에 프리픽스를 공유한다. DRAM에 복제된 캐시는 HBM에 비해 용량이 크지만 접근 지연이 약간 높아, 캐시 적중률이 높은 경우에만 DRAM에서 HBM으로 복사하도록 설계돼 불필요한 메모리 이동을 최소화한다.

시스템 구현은 Huawei Ascend NPU를 기반으로 하며, KV 캐시를 NPU 내부 HBM에 직접 저장한다. 이는 기존 CPU‑GPU 협업 방식보다 메모리 대역폭과 레이턴시 면에서 크게 유리하다. 실험은 실제 서비스 트래픽을 모사한 프로덕션‑미러 환경에서 수행됐으며, 고정된 P99 SLO 하에서 시퀀스 길이를 평균 1.5배 연장하고, 전체 처리량을 최대 3.6배 끌어올렸다. 특히, 캐시 적중률이 85% 이상인 경우 지연 증가가 거의 없으며, 사전 추론 부하가 전체 QPS의 12% 이하로 제한돼 시스템 안정성을 유지한다.

이러한 설계는 “프리픽스 재사용”이라는 아이디어를 실시간 대규모 서비스에 적용하기 위해 메모리 계층 구조와 요청 라우팅을 정교하게 조정한 점이 혁신적이다. 또한, 캐시 관리 정책을 동적으로 조정함으로써 메모리 사용량과 연산 부하 사이의 트레이드오프를 실시간으로 최적화한다는 점에서 기존 정적 캐시 기법과 차별화된다. 향후 연구에서는 프리픽스 외에도 후보‑특정 토큰을 부분적으로 사전 추론하거나, 멀티‑모달 행동 데이터를 포함하는 확장 가능성을 탐색할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기