초대형 시퀀스 추천 모델 ULTRA‑HSTU로 스케일링 법칙을 뒤집다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사용자 행동 이력을 초대형 시퀀스로 처리하면서도 자기‑Attention의 2차 복잡도를 피하기 위해 반밀도(세미‑로컬) 어텐션과 시스템‑모델 공동 설계를 도입한 ULTRA‑HSTU를 제안한다. 입력 시퀀스 압축, 로드‑밸런싱 길이 샘플링, 동적 토폴로지(Attention Truncation, Mixture of Transducers) 등을 결합해 기존 HSTU 대비 훈련 효율은 5배, 추론 효율은 21배 향상시키면서 4%~8% 수준의 실서비스 매출·참여도 상승을 달성했다.

상세 분석

ULTRA‑HSTU는 기존 HSTU가 갖는 “O(L²) 자기‑Attention” 병목을 근본적으로 재설계한다. 첫 번째 핵심은 입력 시퀀스 최적화이다. 아이템과 행동 임베딩을 단순히 합산하고, 행동 타입을 이질적 인코딩으로 표현함으로써 실제 시퀀스 길이를 절반으로 줄였다. 또한, 분산 학습 시 랭크 간 길이 불균형을 완화하기 위해 Load‑Balanced Stochastic Length 방식을 도입해 각 GPU가 동일한 연산량을 처리하도록 강제함으로써 스트래거 현상을 15% 감소시켰다.

두 번째 혁신은 Semi‑Local Attention(SLA)이다. SLA는 로컬 윈도우 K₁과 전역 윈도우 K₂를 결합한 선형 복잡도 O((K₁+K₂)·L)를 구현한다. 이는 완전 연결 자기‑Attention이 제공하는 전역 컨텍스트를 유지하면서도 계산량을 크게 줄인다. 구현 측면에서는 FlashAttention V3를 확장해 SiLU‑기반 어텐션과 비표준 마스크를 지원하는 맞춤형 CUDA 커널을 작성했으며, BF16/FP8/INT4 혼합 정밀도 파이프라인을 구축해 메모리 대역폭과 연산 효율을 동시에 최적화했다. 결과적으로 훈련 단계에서 70%, 추론 단계에서 50% 이상의 GPU 활용률 향상을 달성했다.

세 번째 기여는 동적 토폴로지 설계이다. Attention Truncation은 초기 N₁ 레이어에서 전체 시퀀스를 처리한 뒤, 가장 정보가 풍부한 서브시퀀스를 선택해 추가 N₂ 레이어를 적용한다. Mixture of Transducers(MoT)는 서로 다른 행동 유형을 별도 시퀀스로 분리해 개별 트랜스듀서를 적용하고, 마지막에 표현을 융합함으로써 중요한 신호에 계산 자원을 집중한다. 이러한 설계는 모델 깊이(D)와 시퀀스 길이(L) 사이의 곱셈 비용 O(D·L)을 완화하고, 깊이 스케일링을 가능하게 한다.

실험 결과는 설득력 있다. 동일한 16k 시퀀스, 18 레이어 설정에서 ULTRA‑HSTU는 기존 C‑NE HSTU 대비 훈련 FLOP당 아이템당 성능이 5.3배, 추론 FLOP당 아이템당 성능이 21.4배 향상되었다. 대규모 프로덕션 환경(수십억 사용자, 수백 대 H100 GPU)에서 배포된 결과, 소비량과 참여도가 4%~8% 상승하고, 핵심 비즈니스 지표가 0.217% 상승했다. 이는 단순 모델 크기 증가가 아니라, 모델·시스템 공동 최적화가 스케일링 법칙을 실제 서비스 수준에서 “곡선을 뒤집는” 효과를 만든 사례라 할 수 있다.

요약하면, ULTRA‑HSTU는 (1) 시퀀스 길이 절감, (2) 선형 세미‑로컬 어텐션, (3) 혼합 정밀도·맞춤형 커널, (4) 동적 토폴로지라는 네 가지 축을 통해 초대형 추천 시스템의 스케일링 효율을 획기적으로 개선하였다. 이 접근법은 향후 LLM‑급 시퀀스 모델을 추천 도메인에 적용할 때도 동일한 원칙을 적용할 수 있는 청사진을 제공한다.

초대형 시퀀스 추천 모델 ULTRA‑HSTU로 스케일링 법칙을 뒤집다

초록

상세 분석

댓글 및 학술 토론

의견 남기기