초고속 장기 시퀀스 모델링을 위한 효율적 타깃 인식 세그먼트 어텐션 LASER
초록
LASER는 초장기 사용자 행동 시퀀스를 실시간으로 처리하기 위해 시스템 계층의 SeqVault와 알고리즘 계층의 세그먼트 타깃 어텐션(STA)·글로벌 스택드 타깃 어텐션(GSTA)을 결합한 프레임워크이다. 하이브리드 DRAM‑SSD 인덱싱으로 I/O 지연을 50% 감소시키고, STA의 시그모이드 게이팅으로 불필요한 항목을 억제해 계산량을 크게 줄인다. 대규모 온라인 A/B 테스트에서 ADVV와 매출이 각각 2.36%·2.08% 상승한 실증 결과를 보인다.
상세 분석
본 논문은 산업 현장에서 초장기 시퀀스 모델링이 직면한 두 가지 주요 병목, 즉 대용량 사용자 히스토리 조회의 I/O 지연과 표준 어텐션의 O(L²) 연산 복잡도를 동시에 해결하려는 시도로 평가된다. 첫 번째 레이어인 SeqVault는 DRAM‑SSD 혼합 인덱싱과 스키마‑인식 저장 방식을 도입해, 기존 RocksDB 기반의 Long‑LastN 구조가 초래하던 높은 P99 지연과 디스크 공간 낭비를 크게 완화한다. 메모리 해시 테이블을 이용한 빠른 키 탐색과 디스크에 압축된 시퀀스 블록을 저장함으로써, 실시간 서비스에서 수천 개의 행동 로그를 밀리초 수준으로 가져올 수 있다. 이는 데이터 파이프라인을 단순화하고, 온라인·오프라인 학습 간 데이터 일관성을 유지하는 데 기여한다.
두 번째 레이어인 알고리즘적 효율성은 Segmented Target Attention(STA)와 Global Stacked Target Attention(GSTA)로 구성된다. STA는 입력 시퀀스를 고정 길이 세그먼트로 나눈 뒤, 타깃 아이템과의 연관성을 시그모이드 기반 게이팅으로 가중한다. 이 “silence” 메커니즘은 사용자가 현재 관심을 갖고 있지 않은 오래된 행동을 자연스럽게 억제해, 노이즈를 감소시키면서도 중요한 신호는 보존한다. 각 세그먼트는 하나의 압축 토큰으로 요약되며, 이는 전체 시퀀스 길이를 L′=L/w 로 감소시켜 이후 연산의 복잡도를 O(L′²) 로 낮춘다. GSTA는 압축된 토큰들에 대해 경량화된 스택드 어텐션을 적용해 세그먼트 간 장기 의존성을 모델링한다. 이 “compress‑then‑refine” 구조는 전통적인 Transformer가 초장기 시퀀스에 직면하는 메모리 폭발을 방지하면서도, 타깃‑아이템 중심의 정밀한 매칭을 유지한다.
실험 부분에서는 오프라인 AUC, GAUC, 그리고 온라인 ADVV·Revenue 지표에서 기존 DIN, DIN‑plus, SIM, 그리고 최신 Long‑Sequence 모델들을 모두 능가한다. 특히 100M DAU 규모의 실서비스에서 2%대 매출 상승을 달성한 점은 산업 적용 가능성을 강력히 시사한다. 다만, 논문은 세그먼트 크기 w와 게이팅 임계값 선택에 대한 민감도 분석이 부족하고, 시그모이드 게이팅이 과도하게 희소성을 유도해 일부 장기 패턴을 놓칠 위험에 대한 논의가 부족하다. 또한, GSTA가 실제로 얼마나 경량화되었는지 FLOPs와 메모리 사용량을 구체적으로 제시하지 않아, 다른 경량 어텐션(예: Linformer, Performer)과의 직접 비교가 제한적이다.
전반적으로 LASER는 시스템‑알고리즘 공동 최적화를 통해 “Latency Wall”을 깨는 실용적 접근을 제시한다. 특히 대규모 멀티모달·멀티시나리오 환경에서 스키마‑인식 저장과 타깃‑중심 어텐션을 결합한 설계는 향후 다른 추천·광고 플랫폼에도 확장 가능성이 높다. 향후 연구에서는 세그먼트 동적 조정, 게이팅 함수의 비선형 변형, 그리고 GSTA의 구조적 효율성을 정량화하는 작업이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기