블로섬리크: 블록‑레벨 융합 희소 어텐션으로 효율적인 순차 추천 구현
초록
BlossomRec은 사용자 행동 시퀀스의 장기·단기 관심을 각각 별도의 희소 어텐션 패턴으로 모델링하고, 이를 학습 가능한 게이트로 융합한다. 블록 단위로 키·밸류를 압축·선택해 연산량을 크게 줄이며, 파워‑법칙 마스크를 이용한 단기 어텐션은 최신 상호작용을 강조한다. 실험 결과, 기존 최첨단 Transformer 기반 순차 추천 모델과 결합했을 때 메모리 사용량을 현저히 감소시키면서 동등하거나 더 높은 정확도를 달성한다.
상세 분석
BlossomRec은 순차 추천 시스템에서 발생하는 “길어지는 사용자 히스토리 → 어텐션의 O(N²) 복잡도” 문제를 두 가지 핵심 아이디어로 해결한다. 첫 번째는 Long‑Term Interest Selection (LTIS) 로, 전체 시퀀스를 일정 길이(l)와 스트라이드(s)를 갖는 겹치는 블록으로 분할한다. 각 블록은 MLP 기반 압축기를 통해 하나의 대표 키·밸류 벡터(˜K, ˜V)로 요약된다. 이렇게 압축된 블록들에 대해 쿼리와의 내적을 계산해 중요도 점수를 얻고, Top‑k 블록만을 선택해 실제 어텐션 연산에 투입한다. 블록 선택 과정은 트리톤(Triton) 기반 네이티브 희소 어텐션 커널을 활용해 GPU 효율을 극대화한다. 이 설계는 장기적인 사용자 선호를 전역적인 관점에서 포착하면서도 연산량을 O(N·log N) 수준으로 낮춘다.
두 번째는 Short‑Term Interest Selection (STIS) 로, 최신 상호작용에 대한 민감도를 높이기 위해 파워‑법칙 마스크를 적용한다. 구체적으로, 각 쿼리 토큰은 (1) 고정 윈도우 내의 인접 토큰, (2) 블록 인덱스 차이가 2^k인 블록, (3) 가장 최신 블록 전체에만 어텐션을 허용한다. 이 패턴은 기존 슬라이딩 윈도우 어텐션보다 더 적은 연산으로도 충분히 넓은 수용 영역을 제공하며, 복잡도는 O(log L)이다.
두 희소 어텐션 흐름은 Gated Fusion MLP 로 결합된다. 게이트는 각 헤드·그룹별로 학습되며, 장기와 단기 어텐션 출력 사이의 가중 비율을 동적으로 조정한다. 이를 통해 시퀀스 길이에 관계없이 안정적인 성능을 유지한다.
또한 BlossomRec은 Grouped Query Attention (GQA) 를 채택해 키·밸류 프로젝션을 여러 쿼리 헤드가 공유하도록 설계했다. 이는 파라미터 수와 메모리 사용량을 추가로 절감하면서도 헤드 간 다양성을 보존한다.
이론적 분석에서는 블록 압축과 Top‑k 선택이 전체 어텐션 연산을 O(N·B) → O(k·d) 로 감소시킴을 증명한다(여기서 B는 블록 수, d는 차원). 실험에서는 four public datasets (Amazon Beauty, MovieLens‑1M, Gowalla, and Yelp)에 대해 SASRec, BERT4Rec, and LightSANs와 같은 최신 Transformer 기반 모델에 BlossomRec을 플러그인했을 때, HR@10·NDCG@10 지표에서 평균 1.22.5% 향상을 보이며, 메모리 사용량은 3045% 감소했다.
전반적으로 BlossomRec은 (1) 장기·단기 관심을 명시적으로 분리, (2) 블록‑레벨 압축·선택으로 연산 효율성 확보, (3) 파워‑법칙 마스크로 최신 행동 강조, (4) GQA와 게이트 융합을 통한 호환성 및 안정성 제공이라는 네 가지 설계 원칙을 통해 기존 효율적 어텐션 방법들의 한계를 뛰어넘는다.
댓글 및 학술 토론
Loading comments...
의견 남기기