R2LED 의미 ID로 강화된 장기 사용자 모델링
초록
R2LED는 장기 사용자 행동 시퀀스를 활용한 CTR 예측에서, 의미 ID(SID)를 이용해 검색 단계와 정제 단계를 동시에 개선한다. 다중 경로 혼합 검색(Multi‑route Mixed Retrieval)으로 협업·시맨틱 정보를 모두 활용하고, 이중 레벨 융합 정제(Bi‑level Fusion Refinement)로 SID와 전통 ID를 효과적으로 결합한다. 실험 결과, 기존 방법 대비 정확도와 추론 효율성이 크게 향상되었으며, 코드가 공개되어 재현이 가능하다.
상세 분석
본 논문은 장기 사용자 모델링(Long‑lived User Modeling)에서 두 가지 핵심 문제, 즉 “검색 단계의 노이즈”와 “정제 단계의 의미 부족”을 해결하고자 한다. 기존의 두 단계(검색‑정제) 프레임워크는 협업 기반 임베딩을 이용해 관련 행동을 추출하지만, 데이터 분포가 치우쳐 있을 경우 잡음이 많이 섞인다. 반면, 의미 정보를 도입하려는 시도는 대규모 LLM을 직접 활용하거나 단일 고차원 임베딩을 사용하는데, 전자는 추론 비용이 비현실적이고 후자는 표현 granularity가 부족하다.
R2LED는 이러한 딜레마를 SID(Semantic ID)라는 경량화된 의미 표현을 통해 회피한다. SID는 다중 레벨(예: 3‑level) 코드 시퀀스로, 각 레벨은 점진적으로 세분화된 의미 클러스터를 나타낸다. 이 구조는 (1) 트리 기반 전위(prefix) 매칭을 통해 검색 복잡도를 크게 낮추고, (2) 협업 임베딩과 시맨틱 코드를 동시에 활용해 노이즈를 억제한다는 장점을 제공한다.
검색 단계에서는 Multi‑route Mixed Retrieval(MMR)이라는 설계를 도입한다. MMR은 크게 세 개의 경로를 병렬로 운영한다.
- Target Route: 목표 아이템의 SID와 협업 임베딩을 각각 쿼리로 사용해, SID 트리 매칭과 LSH 기반 해시 검색을 수행한다. 두 결과를 ‘신뢰 게이트(confidence‑gated filling)’로 결합해, 해시 거리 분산이 충분히 클 경우에만 협업 결과를 보강한다. 이는 잡음이 많은 협업 신호를 필터링한다.
- Recent Route: 최근 W개의 행동을 SID 윈도우로 변환하고, 이를 시맨틱 디스크립터로 삼아 전체 이력에서 의미적으로 일치하는 항목을 찾아낸다. 최근 윈도우 자체를 그대로 사용하지 않음으로써 순간적인 클릭 노이즈를 배제한다.
- Global Route: 전체 이력에 대해 전역적인 SID 빈도 통계를 활용해, 장기적인 관심사를 포착한다.
이 세 경로에서 각각 Top‑K 후보를 추출한 뒤, 정제 단계로 넘긴다.
정제 단계는 Bi‑level Fusion Refinement(BFR)으로 명명된다. BFR은 (1) Route‑level Fusion: 각 경로별 후보 시퀀스를 목표 아이템에 대한 크로스‑어텐션으로 인코딩해, ‘global’, ‘recent’, ‘target’ 관심 표현 I_global, I_recent, I_target을 만든다. (2) SID‑level Fusion: 세 레벨의 SID 코드를 게이트 방식으로 가중합해, 의미적 정밀도와 협업 신호를 조화시킨다. 이때 게이트 파라미터는 학습 가능한 스칼라 혹은 컨텍스트‑조건부 벡터로, 각 레벨의 중요도를 동적으로 조정한다. 최종적으로 얻어진 통합 표현은 CTR 예측 모듈(예: DNN 혹은 FM)으로 전달되어 클릭 확률을 산출한다.
실험에서는 두 개의 공개 데이터셋(예: Amazon 리뷰와 Taobao 로그)을 사용해, 기존 최첨단 모델(DIN, ETA, TWIN, LLM‑based 방법 등) 대비 AUC와 GAUC에서 평균 2~4%p 상승을 기록했다. 또한, 검색 단계에서 SID 트리 매칭과 LSH 해시를 결합함으로써 평균 30% 이하의 추론 지연을 유지했으며, 메모리 사용량도 기존 고차원 임베딩 대비 40% 정도 절감했다.
핵심 기여는 다음과 같다.
- 의미 ID를 두 단계 파이프라인에 자연스럽게 삽입한 새로운 프레임워크 R2LED 제시.
- 다중 경로와 혼합 검색을 통해 협업·시맨틱 신호를 동시에 활용, 노이즈 억제 메커니즘(신뢰 게이트) 도입.
- 이중 레벨 융합 정제로 의미와 협업 공간의 정렬 문제 해결, SID‑level 게이트 설계로 granularity 차이를 완화.
- 공개 코드와 재현 가능한 실험을 통해 실용성을 입증.
전반적으로 R2LED는 “시맨틱·협업 하이브리드” 접근법을 경량화된 SID 구조와 효율적인 검색·정제 메커니즘에 결합함으로써, 대규모 온라인 서비스에서 실시간 CTR 예측에 필요한 정확도와 효율성을 동시에 달성한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기