DiffuReason 잠재 추론과 확산 정제로 순차 추천 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DiffuReason는 사용자 행동 이력을 기반으로 다단계 “Thinking Tokens”를 생성해 잠재 의도를 추론하고, 이를 확산 모델로 반복적으로 정제한다. 정제 과정은 확률적 분포를 이용해 노이즈를 제거하고, GRPO 기반 강화학습으로 순위 목표와 직접 정렬한다. 실험과 대규모 온라인 A/B 테스트에서 다양한 백본 모델에 일관된 성능 향상을 입증한다.

상세 분석

본 논문은 순차 추천에서 기존의 결정론적 잠재 추론이 갖는 두 가지 한계를 명확히 지적한다. 첫째, 다단계 추론 과정에서 누적되는 노이즈가 최종 의도 표현을 왜곡한다는 점이며, 둘째, 추론과 추천 정책을 별도의 단계에서 학습함으로써 최적화 갭이 발생한다는 점이다. 이를 해결하기 위해 제안된 DiffuReason는 “Think‑then‑Diffuse”라는 두 단계 파이프라인을 도입한다.

Think 단계에서는 백본 인코더(Fθ)로부터 얻은 히스토리 표현 H에 대해 자동 회귀 방식으로 R개의 Thinking Token τ₁…τ_R을 생성한다. 각 토큰은 MLP와 어텐션을 통해 이전 토큰과 전체 히스토리를 결합해 점진적으로 깊은 의도 구조를 탐색한다. 이렇게 얻어진 토큰 시퀀스는 어텐션 풀링 ψ(·)를 통해 하나의 조건 벡터 c로 압축된다. 이 단계는 인간의 ‘느린 사고(System 2)’를 모방하며, 기존의 단일 최종 상태 사용 방식보다 복합적인 의도 흐름을 포착한다.

Diffuse 단계에서는 c를 조건으로 삼아 확산 모델을 역전파한다. 초기 상태 x_T는 마지막 Thinking Token τ_R에 표준 정규 노이즈 ε_init을 더해 생성하고, 다중 레이어 퍼셉트론(MLP) 기반 디노이징 네트워크가 시간 스텝 t와 조건 c를 입력받아 이전 상태 x_{t‑1}의 평균 μ_φ와 표준편차 σ_φ를 예측한다. 이 과정을 T번 반복해 최종 잠재 상태 x₀=(μ,σ)를 얻는다. μ는 고신뢰도 앵커 표현으로, σ는 의도 불확실성을 나타내는 분산 파라미터다. 이후 μ와 σ를 이용해 G개의 샘플 z_i=μ+σ⊙ε_i (ε_i∼N(0,I))를 생성하고, 디코더에 전달해 후보 아이템을 예측한다.

정규화 손실 L_diff는 μ와 정답 아이템 임베딩 v_target 사이의 MSE로 정의되지만, 이는 순위 정렬과 직접 연관되지 않는다. 따라서 논문은 GRPO(Group Relative Policy Optimization)를 도입해 순위 기반 보상 r_i=I(̂v_{1,i}=v_target)를 직접 최적화한다. 샘플 그룹 내 평균과 표준편차로 정규화된 어드밴티지 A_i를 계산하고, 클리핑된 중요도 비율 ρ_i와 함께 정책 손실 L_align을 최소화한다. KL 정규화 항을 생략한 이유는 디노이징 과정이 이미 앵커 중심의 로컬 탐색을 강제하기 때문이다.

전체 목표 함수는 L_total = L_rec + α·L_diff + β·L_align 형태로, 교차 엔트로피 기반 추천 손실 L_rec, 확산 재구성 손실 L_diff, 그리고 GRPO 정렬 손실 L_align을 가중합한다. 이 설계는 추론, 정제, 정책이 하나의 그래디언트 흐름 안에서 공동 학습되도록 하여 단계별 최적화의 비효율성을 해소한다.

실험에서는 four public benchmark datasets와 여러 백본(SASRec, BERT4Rec, TiGER 등)에 DiffuReason를 적용했으며, HR@10, NDCG@10 등 주요 지표에서 일관된 상승을 기록했다. 특히, 정규화된 확산 과정이 노이즈를 효과적으로 억제해 높은 Hit 비율을 달성했으며, GRPO 기반 강화학습이 샘플 다양성을 유지하면서도 최종 순위 성능을 극대화했다. 대규모 산업 플랫폼에서 진행된 온라인 A/B 테스트에서도 클릭률(CTR)과 전환율(CVR)이 유의미하게 개선되었으며, 시스템 지연시간은 기존 모델 대비 미미한 증가만 보였다.

요약하면, DiffuReason는 (1) 다단계 토큰 기반 잠재 추론으로 복합 의도 모델링, (2) 확산 기반 확률적 정제로 노이즈 억제 및 불확실성 표현, (3) GRPO 기반 강화학습으로 순위 목표와 직접 정렬이라는 세 축을 통합한 혁신적인 프레임워크이다. 이는 순차 추천 시스템에서 추론‑정제‑정책의 공동 최적화를 가능하게 하여, 학계와 산업 현장에서 실용적인 성능 향상을 제공한다.

DiffuReason 잠재 추론과 확산 정제로 순차 추천 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기