RelayGR 장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

2026년 02월 04일

읽는 시간: 10 분

...

#paper #AI 요약

📝 원문 정보

- Title: RelayGR Scaling Long-Sequence Generative Recommendation via Cross-Stage Relay-Race Inference
- ArXiv ID: 2601.01712
- 발행일: 2026-01-05
- 저자: Jiarui Wang, Huichao Chai, Yuanhang Zhang, Zongjin Zhou, Wei Guo, Xingkun Yang, Qiang Tang, Bo Pan, Jiawei Zhu, Ke Cheng, Yuting Yan, Shulan Wang, Yingjie Zhu, Zhengfan Yuan, Jiaqi Huang, Yuhan Zhang, Xiaosong Sun, Zhinan Zhang, Hong Zhu, Yongsheng Zhang, Tiantian Dong, Zhong Xiao, Deliang Liu, Chengzhou Lu, Yuan Sun, Zhiyuan Chen, Xinming Han, Zaizhu Liu, Yaoyuan Wang, Ziyang Zhang, Yong Liu, Jinxin Xu, Yajing Sun, Zhoujun Yu, Wenting Zhou, Qidong Zhang, Zhengyong Zhang, Zhonghai Gu, Yibo Jin, Yongxiang Feng, Pengfei Zuo

📝 초록

현대 산업용 추천 시스템은 하루에 수십억 건의 요청을 처리하며, 이는 검색, 사전 가공 및 세부 정렬 단계를 포함한다. 사용자 참여는 지연 시간에 매우 민감하므로 전체 파이프라인은 몇 백 밀리초 내에 완료되어야 한다. 세부 정렬 단계가 병목 현상을 일으키며, 고용량 모델로 수백 개의 후보 항목을 점수화하는 데 99번째 백분위 수(P99)에서 몇십 밀리초만 주어진다. 생성적 추천(GR) 모델은 긴 시퀀스를 처리하고 더 큰 용량에 잘 확장되지만, 온라인 서비스에서는 시퀀스 길이 증가로 인한 추론 지연 시간 증가로 인해 제약을 받는다. 본 논문에서는 GR의 입력 구조적 특징을 활용하여 장기 사용자 행동 접두사에 대한 사전 추론과 중간 상태 캐싱 및 재사용을 통해 이 문제를 해결하는 RelayGR 시스템을 제안한다.

💡 논문 해설

1. **문제와 통찰:** 세부 정렬 단계의 P99 지연 시간이 긴 시퀀스 생성적 추천 모델(GR)을 온라인에 배포하는 데 큰 장애물이 된다는 것을 인식한다. 대부분의 GR 계산은 항목 독립적인 사용자 행동 접두사에서 이루어진다.

해설: 이 부분에서는 세부 정렬 단계의 지연 시간 제약이 긴 시퀀스를 처리하는 생성적 추천 모델을 온라인에 배포하는 데 큰 장애물이라는 것을 설명한다. GR 모델은 사용자의 행동 패턴을 학습하고 그 패턴을 기반으로 항목을 점수화하는데, 이 과정에서 가장 많은 계산이 사용자 행동 접두사에서 이루어진다.

시스템 설계: RelayGR 시스템이 실시간 추천 시스템에 대해 언제 사전 추론을 할지, 캐시를 어디에 배치할지 그리고 안전하게 재사용을 확장하는 방법을 제안한다.

해설: RelayGR는 장기 사용자 행동 접두사를 사전에 계산하고 중간 상태를 캐싱하여 항목 점수화 과정에서 재사용하도록 설계되었다. 이는 지연 시간 문제를 해결하면서도 GR 모델의 성능을 향상시키는 방법이다.
생산 구현 및 평가: RelayGR은 Ascend NPUs에 구현되었으며, 고정된 P99 지연 시간 제약 하에서 최대 1.5배 긴 시퀀스를 지원하고, 통합 추천 시스템의 처리량을 최대 3.6배 향상시킨다.

해설: RelayGR은 실제 쿼리와 함께 실시간 추천 시스템에서 평가되었으며, 고정된 지연 시간 제약 하에서도 더 긴 시퀀스를 처리하고 전체 시스템의 처리량을 크게 향상시킨다.

📄 논문 발췌 (ArXiv Source)

[^1] [^2] [^3]

서론

현대 산업용 추천 시스템은 검색, 사전 가공(또는 코세이 랭킹) 및 세부 정렬을 포함하는 다단계 캐스케이드를 통해 하루에 수십억 건의 요청을 처리한다. 사용자 참여는 지연 시간에 매우 민감하므로 전체 파이프라인은 몇 백 밀리초 내에 완료되어야 한다; 그렇지 않으면 타임아웃은 직접적인 매출 손실로 이어진다. 세부 정렬 단계가 병목 현상을 일으키며, 일반적으로 99번째 백분위 수(P99)에서 몇십 밀리초만 주어져서 수백 개의 후보 항목을 고용량 모델로 점수화해야 한다.

생성적 추천(GR) 모델은 다음 세대 랭킹 모델로 점점 더 많이 채택되고 있다. 전통적인 딥러닝 추천모델(DLRMs)에 비해 GR 모델이 장기 순차적 행동을 더 잘 포착하고, 더 긴 시퀀스와 더 큰 용량에 대해 유리한 확장을 보인다. 오프라인 훈련 및 평가에서는 사용자당 천 개 이상의 행동 토큰을 처리하지만 온라인 서비스에서는 시퀀스 길이(또는 특징 차원)를 늘리면 추론 지연 시간이 증가하고 랭킹 단계 P99 SLO를 위반할 수 있다. 이전 노력들은 검색 및 랭킹을 통합하는 종단간 GR 모델을 추구하거나, GR을 검색/랭킹 내부에 배치하면서 교차 특징을 보상으로 취급한다. 모든 경우에서 실제 배포는 동일한 첫 번째 장애물로 제약받는다: 랭킹 단계 P99가 사용 가능한 시퀀스 길이를 제한하고 따라서 GR의 온라인 확장 이점을 제한한다(Figure 3).

우리의 핵심 관찰은 GR 입력이 중요한 구조적 특성을 가지고 있다는 것이다. 즉, 대부분의 토큰은 사용자 행동을 인코딩한다. 장기 행동(예: 몇 주/월 동안의 클릭과 조회)은 자연스럽게 접두사로 형성되며 단기 신호 및 후에 삽입된 후보 항목 종속 교차 특징보다 더 느리게 진화한다. 이는 간단한 기회를 제시한다: 장기 사용자 접두사를 사전 추론하고 중간 상태(레이어별 KV)를 캐싱하여 세부 정렬에서 후보 항목을 점수화할 때 재사용한다. 이것은 LLM 서비스의 접두사 캐싱과 유사하지만, 추천 설정은 근본적으로 더 어려운 문제를 제기한다: 접두사는 사용자별로 특정하며(전체 쿼리 간에 공유되지 않음), 캐시는 랭킹 실행 전까지 여러 파이프라인 단계에서 생존해야 한다.

위의 아이디어를 생산 최적화로 바꾸려면 세 가지 시스템적인 과제를 해결해야 한다.

(1) 지연 결합 하에 파이프라인을 가로지르는 캐시 연결. 접두사 캐시는 검색 중 생성될 수 있지만, 사전 가공이 완료된 후 랭킹에서만 소비될 수 있다. 캐시 생성 시점에는 최종 랭킹 인스턴스가 결정되지 않을 수 있다; 만약 생산과 소비가 다른 인스턴스에 놓인다면, 캐시를 원격으로 가져와야 하며, 이는 종종 몇십 밀리초의 랭킹 지연 시간을 초래한다. 심지어 서버 내에서도 장치 메모리 오버플로가 발생하면 플러시/재로드가 발생하여 랭킹 SLO와 경쟁할 수 있다.

(2) 사용자 인구 통계학적으로 “모든 것을 캐싱"이 불가능하다. 산업용 추천 시스템은 수십억 명의 사용자를 대상으로 한다. 심지어 겸손한 GR 백본도 천 개 이상의 토큰을 소비할 때 각 사용자에게 메กะ바이트 단위의 KV 상태를 생성하여 피타바이트 규모의 총합을 초래한다(메가바이트 곱하기 모든 사용자). 원시 분산형 캐싱 풀은 종종 지연 시간이 랭킹 예산과 맞먹거나 이를 초과하는 원격 추출을 자주 트리거하여 전체 접근 방식의 효과를 해칠 수 있다.

(3) 높은 QPS로 인해 무조건적인 사전 추론이 위험하다. 생산 규모에서 각 가속기 인스턴스는 초당 수백 건의 쿼리를 처리할 수 있다. 특징 전처리 및 임베딩 조회 후 각 쿼리는 메가바이트 단위의 임베딩을 지니게 된다. 동시성 하에 호스트-장치 전송과 가속기 실행은 공유된 CPU/PCIe/NPU 리소스를 경쟁한다. 모든 요청에 대해 접두사를 사전 추론하면 랭킹이 P99 내에서 유지하기 위해 필요한 정확히 같은 리소스를 과부하 상태로 만들 수 있다. 따라서 사전 추론은 선택적이어야 하며 로드 인식적이다.

이러한 과제를 해결하기 위해, 우리는 RelayGR라는 생산 시스템을 제안한다. RelayGR는 GR에 대한 “HBM 릴레이 경주 추론"을 가능하게 하며, 장기 사용자 접두사를 사전 추론하고 결과 중간 상태 캐시를 요청 수명 주기에 걸쳐 장치 메모리에서 유지하며, 후속 랭킹 단계가 원격 캐싱 없이 로컬로 캐시를 소비할 수 있도록 한다. 더 일반적으로, RelayGR은 “지연 결합 배치 하의 수명주기 캐싱"이라는 독특한 시스템 문제에 대응하며, 캐시 생성과 소비가 여러 파이프라인 단계로 분리되어 있고 소비자가 중간 필터링 후에만 결정된다.

RelayGR은 실시간 추천을 위한 “언제” 사전 추론할지, “어디서” 캐시를 배치하고, “어떻게” 안전하게 재사용을 확장하는 세 가지 기술로 구성되어 있다:

Sequence-aware Trigger. 검색 중에 RelayGR은 경량 사용자 행동 메타데이터(예: 접두사 길이 및/또는 차원)를 조사하고, 전체 추론에서 랭킹 단계 P99를 위반할 가능성이 있는 요청인지 예측한다. 위험한 요청만 접두사 사전 추론에 허가되며, 이로 인해 오버헤드가 제한되고 새로운 병목 현상을 방지한다.

Affinity-aware Router. 허가된 요청에 대해 RelayGR은 후속 랭킹 요청이 캐시를 생성한 동일한 인스턴스에서 도착해야 하는 라우팅 계약을 강제한다. 이 설계는 요청 수명 주기가 몇 백 밀리초만 지속된다는 사실에 기반하며, HBM이 사용자별 접두사를 소비하기까지(예: 릴레이 경주를 가능하게 함) 충분히 유지하도록 한다. 이를 통해 랭킹 임계 경로에서 서버 간 캐싱을 제거한다.

Memory-aware Expander. RelayGR은 또한 동일한 사용자로부터의 반복 요청(예: 급속한 리프레시)에서 짧은 기간 재사용을 포착하기 위해 서버 로컬 DRAM을 활용하며, 원격 트래픽을 도입하지 않고 이 작업을 수행한다. HBM은 단일 수명 주기 내에서 캐시 가용성을 보장하며, DRAM은 제한된 H2D 비용으로 HBM 윈도우를 넘어서 재사용을 확장하는 통제된 보상 계층을 제공한다.

RelayGR은 Huawei Ascend NPUs에 구현되었으며, 실제 쿼리를 사용하여 생산 제약 하에서 평가되었다. 고정된 랭킹 단계 P99 SLO(또한 전체 추천 SLO) 하에서 RelayGR은 최대 1.5배 긴 입력 시퀀스를 지원하고, 시스템 처리량을 최대 3.6배 향상시킨다.

요약하자면, 이 논문은 세 가지 기여를 합니다:

문제 및 통찰. 랭킹 단계 P99는 긴 시퀀스 GR을 온라인에 배포하는 첫 번째 장애물이며 대부분의 GR 계산이 항목 독립적인 사용자 행동 접두사에서 이루어진다는 것을 인식한다.
시스템 설계. RelayGR, 실시간 추천 시스템을 위한 수명주기 캐싱 지연 결합 배치를 통해 “HBM 릴레이 경주 추론"을 구현하는 생산 시스템을 제안한다.
생산 구현 및 평가. RelayGR은 Ascend NPUs에 구현되었으며, 고정된 P99 SLO 하에서 최대 1.5배 긴 지원 시퀀스와 최대 3.6배 높은 SLO 준수 처리량을 보여준다.

배경 및 동기

실시간 추천 시스템은 엄격한 꼬리 지연 시간 SLO 하에서 검색, 사전 가공 및 세부 정렬을 포함하는 다단계 캐스케이드를 실행한다. 한편으로는 생성적 추천(GR) 모델이 긴 사용자 행동 시퀀스로부터 이점을 얻지만 생산 배포에서는 온라인 시퀀스 길이(또는 특징 차원)가 랭킹 단계 P99 예산을 충족시키기 위해 제한된다. 이 섹션은 먼저 실시간 파이프라인(§2.1)과 GR 추론 구조(§2.2)를 검토한다. 그런 다음 사용자 행동 접두사를 사전 추론하는 기회를 동기화한다(§2.3) 및 이를 산업 규모 최적화로 전환하는 이유는 왜 어려운지 설명한다(§2.4).

실시간 추천 파이프라인

지연 시간 예산 및 꼬리 증폭.

산업용 추천 시스템은 엄청난 트래픽 볼륨을 처리하고, P99에서 몇 백 밀리초 내에 전체 라턴드를 유지해야 하며 타임아웃으로 인한 실패와 매출 손실을 피해야 한다. 중요한 점은 예산이 파이프라인 단계 간에 분할되어 세부 정렬 단계에는 몇십 밀리초만 주어진다는 것이다. 또한 높은 동시성 하에서 세부 정렬이 실행되므로, 생산 배포는 피크 효율성을 근접하게 운영하지 않는다: CPU, PCIe 또는 가속기의 포화 상태는 대기 지연 시간을 증폭시켜 꼬리 지연 시간을 악화시키고 P99 준수를 취약하게 만든다.

세 단계 캐스케이드.

일반적인 파이프라인에는 다음이 포함된다: (i) 검색은 큰 후보 풀을 선택하고, (ii) 사전 가공/코세이 랭킹은 특징 변환 및 후보자 제거를 수행하며, (iii) 세부 정렬은 남아 있는 후보자를 중량급 모델로 점수화한다. Figure 4이 이 캐스케이드를 설명한다. 후보 집합 크기는 단계별로 줄어들지만, 세부 정렬은 고정된 P99 윈도우 내에서 수백 개의 항목을 점수화해야 하므로 여전히 지연 시간에 민감하다.

긴 P99 하에서 생성적 추천

왜 GR이 매력적인가?

GR 모델은 장기 순차 사용자 행동을 모델링하고, 더 긴 시퀀스와 더 큰 모델 용량에 대해 유리한 확장을 보여줌으로써 추천 품질을 개선한다. 오프라인 훈련 및 평가에서는 GR 모델이 사용자당 천 개 이상의 행동 토큰을 처리할 수 있으며, 시간 경과에 따른 사용자의 행동 트레젝토리와 제시된 콘텐츠 간의 풍부한 종속성을 학습한다.

GR은 두 가지 일반 모드로 배포될 수 있다. 판별 모드에서는 모델이 후보자 랭킹을 위한 점수/로그를 출력하며, 항목 간에 결정 경계를 학습한다. 생성 모드에서는 모델이 토큰 단위로 타겟을 생성하거나 추출 또는 랭킹을 위해 후속 타워가 소비할 표현을 생성한다. 최근 종단간 GR 제안은 검색과 랭킹을 통합하려고 하지만, 실제로는 후보자 별 교차 특징이 품질 개선의 중요한 원천이다. 따라서 많은 배포는 그들이 GR 백본을 채택하더라도 여전히 그러한 특징을 명시적 또는 암묵적으로 사용한다.

왜 GR은 온라인에서 제약을 받는가?

온라인 세부 정렬은 몇십 밀리초 P99 예산 하에 작동한다. GR 시퀀스 길이나 특징 차원을 늘리면 추론 비용이 증가하고 꼬리 지연 시간을 유지하기 어렵다. 그 결과, 생산 시스템은 온라인 시퀀스 길이를 제한하여 오프라인 훈련(천 개 이상의 행동)과 온라인 추론 사이에 간극을 만든다(보통 훨씬 적음). 현재 대응책은 주로 고정된 예산에 맞추기 위해 컴퓨팅 용량을 줄이는 것이다 — 예를 들어, 토큰이나 표현을 압축한다(Figure 5). 하지만 산업 배포에는 GR의 확장 이점을 실현하려면 보완적인 능력이 필요하다: 온라인 시퀀스 길이 상한을 높이는 것이며 여전히 동일한 꼬리 지연 시간 SLO를 충족한다.

기회: 사용자 행동 접두사 사전 추론

장기 행동은 큰, 안정적인 접두사를 형성한다.

GR 입력은 사용자 측 맥락과 항목 측 타겟을 섞는다. 실제로 사용자 행동은 시간 순서대로 나타나며, 장기 행동(수개월/년에서 수일 전)이 초기에 나타나 큰 접두사를 형성한다. 남아 있는 토큰에는 주로 단기 행동(수시간/일), 교차 특징 및 점수화할 후보 항목을 포함된다. 특히, 장기 행동은 토큰 수를 지배하고(주로 천 개 이상) 느리게 진화하며 단기 신호와 임베딩은 빠르게 갱신되고 주로 긴 갱신 파이프라인과 결합된다(예: 시간당 갱신). 따라서 이 논문에서는 단지 장기 접두사에 대해 사전 추론을 집중한다: 주요 계산을 포착하면서도 빠른 모델/임베딩 갱신과 강한 결합 없이 생산 안정성을 유지한다.

접두사 재사용: LLM과 유사하지만 다른 재사용 의미.

접두사 캐싱은 LLM 추론에서 요청 간 계산을 재사용하는 데 널리 사용된다. LLM에서는 접두사가 종종 공유되므로(일반 프롬프트/템플릿), 재사용은 요청간 및 사용자간 이루어진다. GR에서는 접두사는 주로 사용자별이다: 두 명의 사용자가 동일한 행동 이력을 공유하는 경우는 거의 없다. 따라서 가장 안정적인 재사용 기회는 동일한 수명 주기의 여러 단계에서의 사용자 내 재사용(가능하다면 같은 사용자의 반복 요청 간)이다.

랭킹 전에 사전 추론.

장기 접두사는 검색 초기에 사용 가능하며 후보 필터링과 크게 분리되어 있다. 따라서 “빠른 실행"이 가능하다: 검색 중 접두사를 계산하고 중간 상태를 캐싱한 다음, 나중에 랭킹에서 후보 항목을 점수화할 때 재사용한다(Figure 6). 만약 비싼 장기 접두사 계산이 랭킹 임계 경로에서 제거된다면, 랭킹 지연 시간은 총 시퀀스 길이에 덜 민감해진다; 주로 증가하는 토큰(단기/교차 특징)과 항목 배치에 의존한다. 이를

MATH

\begin{equation}
\psi \leftarrow f([\mathcal{U}, \mathcal{S}_{l}, \emptyset, \emptyset], \emptyset),\;\;\;
\left|f([\mathcal{U}, \mathcal{S}_{l}, \widetilde{\mathcal{S}_{l}}, \mathcal{I}], \emptyset) - 
f([\emptyset, \emptyset, \widetilde{\mathcal{S}_{l}}, \mathcal{I}], \psi)\right| \le \varepsilon,
\nonumber
\end{equation}

클릭하여 더 보기

위의 수학식에서 $`f`$는 GR 랭킹 모델(생성적 백본 및 다운스트림 작업 타워)을 나타낸다. 입력 시퀀스에는 사용자 행동이 포함된다.

ArXiv 원문 PDF 보기