GRAB: 대규모 언어모델 영감을 받은 시퀀스‑우선 CTR 예측 혁신
초록
전통적인 DLRM이 긴 행동 시퀀스와 일반화에서 한계를 보이는 문제를 해결하기 위해, Baidu는 GRAB이라는 엔드‑투‑엔드 생성형 프레임워크를 제안한다. CamA(인과‑행동 인식 다채널 어텐션)와 STS(Sequence‑Then‑Sparse) 학습 전략을 도입해 희소 파라미터와 밀집 파라미터의 충돌을 해소하고, 사용자별 시퀀스 패킹과 이질적 토큰 마스킹을 통해 효율성을 높였다. 실서비스 A/B 테스트에서 CPM 3.05%·CTR 3.49% 상승을 기록했으며, 시퀀스 길이가 늘어날수록 선형에 가까운 성능 향상을 보였다.
상세 분석
GRAB은 기존 DLRM이 갖는 “강한 기억, 약한 추론” 구조적 한계를 LLM의 스케일링 법칙에 빗대어 극복한다는 점에서 이론적·실용적 의미가 크다. 핵심 기여는 세 가지로 요약된다. 첫째, CamA는 다채널 어텐션을 통해 사용자 행동 로그의 노출·클릭·전환 등 다양한 행동 유형을 별도 채널로 분리하고, 각 채널에 인과‑행동 인식(Relative Action‑aware) 바이어스를 적용한다. 이는 기존 Transformer가 동일한 토큰 집합에만 집중하던 문제를 완화하고, 행동 간 상호작용을 명시적으로 학습하게 만든다. 둘째, Sequence‑Then‑Sparse(STS) 학습 방식은 희소 파라미터(임베딩 테이블)와 밀집 파라미터(Transformer 가중치)의 그래디언트 요구가 상충한다는 ‘분포 스큐’를 해결한다. 구체적으로, 먼저 전체 시퀀스를 사용해 밀집 파라미터를 업데이트하고, 이후 동일 배치에서 희소 파라미터만을 별도 SGD 단계로 미세조정함으로써 두 파라미터군이 서로 방해하지 않도록 설계했다. 셋째, 사용자‑격리 시퀀스 패킹과 이질적 가시성 마스크는 패딩 비용을 최소화하면서도 사용자 간 정보 누수를 방지한다. 토큰을 ‘partial(히스토리)’와 ‘full(후보)’ 두 종류로 구분하고, full 토큰은 동일 시점의 partial 토큰만을 참조하도록 제한함으로써 실시간 스트리밍 시나리오에서도 효율적인 추론이 가능하도록 했다.
실험 결과는 두드러진데, 오프라인 벤치마크에서 기존 DLRM 및 최신 GR 모델 대비 0.19% 상대 AUC 향상을 보였으며, 온라인 서비스에서는 CPM과 CTR 모두 3% 이상 상승했다. 특히 모델 용량과 시퀀스 길이를 늘렸을 때 성능이 거의 선형적으로 증가한다는 스케일링 특성은 LLM‑style 추천 시스템이 실제 산업 현장에서 지속 가능한 성장 경로를 제공한다는 강력한 증거다. 다만, CamA의 다채널 설계와 상대적 바이어스 학습은 추가 메모리·연산 오버헤드를 야기할 수 있으며, STS 학습 단계가 복잡해져 파이프라인 구현 난이도가 상승한다는 점은 배포 시 고려해야 할 요소다. 전체적으로 GRAB은 DLRM과 GR 사이의 격차를 메우는 실용적 브릿지 모델로 평가할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기