다중 경로와 자기 반성을 통한 대규모 추천을 위한 REG4Rec

다중 경로와 자기 반성을 통한 대규모 추천을 위한 REG4Rec
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

REG4Rec은 아이템을 다중 의미 토큰으로 표현하는 MoE 기반 병렬 양자화 코드북(MPQ)을 도입해 다양한 추론 경로를 생성하고, 강화학습 기반 Preference Alignment for Reasoning(PARS)과 Multi‑Step Reward Augmentation(MSRA)으로 추론 신뢰성을 높인다. 추론 단계에서는 Consistency‑Oriented Self‑Reflection for Pruning(CORP)으로 일관성 없는 경로를 제거한다. 대규모 실험과 알리바바 광고 플랫폼 A/B 테스트에서 최대 16.59%의 성능 향상과 5.60% 광고 매출 증가를 달성했다.

상세 분석

REG4Rec은 기존 생성 기반 추천 모델이 갖는 “단일 의미 표현 → 경로 고정”이라는 한계를 근본적으로 해소한다. 핵심은 두 가지 차원에서의 다변화와 신뢰성 강화이다. 첫째, MoE‑based Parallel Quantization (MPQ) 코드는 각 아이템을 M개의 독립적인 자동인코더 전문가가 각각 다른 의미 차원을 캡처하도록 설계한다. 이때 코드북은 순서에 구애받지 않는 unordered token 집합을 제공하므로, 동일 아이템이라도 다양한 조합의 토큰 시퀀스를 생성할 수 있다. 결과적으로 추론 시점에 “모든 코드북 중 가장 높은 confidence 토큰을 선택”하는 Confidence‑based Reasoning Step Selection(CRSS) 메커니즘을 통해 조합 가능한 경로 수가 지수적으로 확대된다(예: M=4, D=256이면 256⁴개의 잠재 경로).

둘째, 추론 신뢰성을 확보하기 위한 두 단계 학습 프레임워크가 도입된다. 사전 학습 단계에서는 기존의 아이템 토큰 예측 외에 카테고리 예측 보조 과제를 추가해, 각 경로의 의도 일관성을 정량화할 수 있는 프록시 신호를 얻는다. 사후 학습에서는 강화학습 기반 PARS가 “선택된 경로의 confidence와 카테고리 일치도”를 보상 함수에 반영해, 고신뢰 경로가 더 높은 확률로 선택되도록 정책을 미세조정한다. 또한 MSRA는 단일 스텝 보상이 아니라 미래 N‑step 행동까지 고려하는 시간 감쇠 보상 구조를 도입함으로써, 사용자의 장기 선호와 변동성을 보다 정확히 포착한다.

추론 단계에서는 Consistency‑Oriented Self‑Reflection for Pruning(CORP)이 핵심 역할을 한다. 각 경로별로 단계별 토큰과 카테고리 일관성을 평가하고, 일정 threshold 이하인 경로를 즉시 차단한다. 이는 LLM에서 차용한 “self‑reflection” 개념을 추천 도메인에 적용한 것으로, 불필요한 노이즈 전파를 방지하고 최종 추천 리스트의 품질을 보장한다.

또한 대규모 산업 적용을 위해 Layer‑Adaptive Dynamic Quantization (LADQ) 컨트롤러가 설계되었다. LADQ는 레이어별 sensitivity profiling을 수행해 fp32, bf16, fp8 등 적절한 정밀도를 동적으로 할당함으로써 학습 시간과 하드웨어 비용을 크게 절감한다.

실험 결과는 네 개의 데이터셋(공개 3개 + 알리바바 광고 로그)에서 기존 GR 기반 모델(예: ReaRec, STREAM) 대비 평균 9.8%~16.6%의 상대적 개선을 보였으며, 특히 광고 매출(Revenue)과 클릭률(CTR)에서 실시간 A/B 테스트를 통해 각각 5.60%와 1.81% 상승을 기록했다. 이는 다중 의미 토큰과 자기 반성 메커니즘이 실제 비즈니스 KPI에 직접적인 긍정 영향을 미친다는 강력한 증거이다.

요약하면, REG4Rec은 (1) 아이템 표현의 다중화(MPQ), (2) 경로 선택·보강의 강화학습 기반 프레임워크(PARS, MSRA), (3) 추론 시 일관성 검증 및 정제(CORP), (4) 효율적인 대규모 학습을 위한 LADQ라는 네 가지 혁신을 결합해, 대규모 전자상거래·광고 환경에서 기존 생성 기반 추천 시스템을 능가하는 성능과 실용성을 동시에 달성한다.


댓글 및 학술 토론

Loading comments...

의견 남기기