순위강화 생성형 검색으로 추천 정확도 향상

순위강화 생성형 검색으로 추천 정확도 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RankGR은 기존 생성형 검색이 토큰 수준의 다음‑토큰 예측에 머무르는 한계를 극복하고, 리스트‑와이즈 직접 선호 최적화를 도입해 사용자 선호의 계층적 구조와 부분 순서를 모델링한다. 초기 평가 단계(IAP)와 정교 점수 단계(RSP)를 결합해 후보 아이템을 효율적으로 생성·재평가하며, 실시간 10 천 건·초 처리 능력을 갖춘 대규모 서비스에 적용해 클릭·노출 지표를 크게 개선하였다.

상세 분석

본 논문은 생성형 검색(Generative Retrieval, GR)이 추천 시스템에서 차지하는 역할을 재조명하고, 기존의 Next‑Token Prediction(NTP) 방식이 갖는 두 가지 근본적인 문제점을 짚는다. 첫째, NTP는 각 토큰을 독립적인 학습 목표로 삼아 아이템 수준의 부분 순서(partial order)를 전혀 고려하지 못한다. 실제 서비스 로그에서는 구매·클릭·노출 등 다양한 행동이 계층적 선호를 형성하지만, 토큰 단위 손실 함수는 이러한 미묘한 차이를 반영하지 못한다. 둘째, 추론 시 후보 토큰을 단일 히든 스테이트와 전체 어휘의 내적을 통해 선택하는 방식은 두 타워(two‑tower) 매칭과 유사해, 후보 아이템과 전체 행동 시퀀스 간의 깊은 상호작용을 놓친다. 이러한 한계를 극복하기 위해 RankGR은 두 단계로 구성된 프레임워크를 제안한다.

초기 평가 단계(IAP)에서는 리스트‑와이즈 직접 선호 최적화(Listwise Direct Preference Optimization, LDPO)를 도입한다. LDPO는 기존의 pairwise DPO를 확장해, 하나의 세션 내에서 여러 아이템을 동시에 고려하고, 긍정적 피드백(구매·클릭)과 부정적 피드백(노출만) 사이의 상대적 순위를 직접 학습한다. 이를 위해 아이템별 로그 확률을 합산한 π(i) 점수를 정의하고, 긍정·부정 샘플을 대비시키는 sigmoid‑rank 손실을 적용한다. 중요한 점은 별도의 보상 모델을 훈련할 필요 없이, supervised contrastive learning 형태로 선호 신호를 직접 모델에 주입한다는 것이다.

정교 점수 단계(RSP)는 IAP에서 생성된 상위 λ개의 후보 SID에 대해, 각 후보와 전체 행동 시퀀스의 히든 레이어를 활용한 경량 스코어링 모듈을 적용한다. 이 모듈은 후보별로 별도의 attention‑like 연산을 수행해, 후보와 사용자 행동 사이의 깊은 의미적 연관성을 포착한다. 결과적으로 IAP의 내적 기반 후보 선택이 갖는 얕은 상호작용을 보완하고, 후보 순위를 미세 조정한다. IAP와 RSP는 동일한 GR 백본 모델 위에서 공동 최적화되며, 파라미터 공유와 효율적인 배치 학습을 통해 학습 비용을 최소화한다.

시스템 구현 측면에서는 토큰화, 배치 샤딩, GPU‑CPU 파이프라인 최적화 등을 통해 초당 1만 건 이상의 요청을 실시간으로 처리할 수 있는 인프라를 구축했다. 실험에서는 공개 연구 데이터셋과 알리바바 내부 데이터셋 모두에서 RankGR이 기존 TIGER, FORGE, COBRA 등 최신 GR 모델 대비 클릭‑through rate(CTR)와 구매 전환율을 크게 상회함을 보였다. 특히 타오바오 “Guess You Like” 홈피드에 적용했을 때 아이템 페이지 뷰가 1.08% 상승하는 온라인 A/B 테스트 결과를 제시한다.

전반적으로 RankGR은 (1) 리스트‑와이즈 선호 최적화를 통한 부분 순서 학습, (2) 후보와 시퀀스 간의 깊은 상호작용을 위한 경량 스코어링, (3) 엔드‑투‑엔드 통합 학습 구조를 통해 기존 GR의 근본적 한계를 해소하고, 대규모 실시간 서비스에 적용 가능한 확장성을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기