마스크드 디퓨전 기반 차세대 추천 모델 MDGR

마스크드 디퓨전 기반 차세대 추천 모델 MDGR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MDGR은 병렬 코드북과 마스크드 디퓨전 과정을 결합해, 사용자 히스토리를 기반으로 아이템의 의미 토큰(SID)을 다단계로 복원한다. 시간·샘플 차원의 커리큘럼 마스킹과 워밍업‑병렬 디코딩을 통해 전역 의존성, 사용자별 속성 순서 다양성, 그리고 실시간 추론 효율성을 동시에 달성한다. 실험 결과 공개·산업 데이터셋에서 10.78%까지 성능 향상을 보였으며, 대규모 광고 플랫폼에 적용해 매출 1.20% 상승을 기록했다.

상세 분석

본 논문은 기존 생성 기반 추천(Generative Recommendation, GR) 시스템이 언어 모델의 자동회귀(autoregressive) 디코딩 방식을 그대로 차용함으로써 발생하는 세 가지 근본적인 한계를 지적한다. 첫째, 자동회귀는 토큰 위치별로 좌측 프리픽스만을 조건으로 삼아 전역적인 다차원 특성 간 의존성을 충분히 포착하지 못한다. 이는 아이템을 구성하는 카테고리·브랜드·가격 등 다양한 속성이 서로 얽혀 있는 상황에서 특히 문제된다. 둘째, 고정된 좌-우 순서 디코딩은 “모든 사용자가 동일한 순서로 속성을 인지한다”는 가정을 내포하는데, 실제 클릭 행동은 사용자마다 선호 속성의 순서가 크게 다르다. 셋째, 자동회귀는 토큰을 순차적으로 하나씩 생성하므로 추론 지연(latency)이 커져 실시간 서비스에 부적합하다.

MDGR은 이러한 문제를 해결하기 위해 세 축(코드북, 학습, 추론)에서 혁신을 도입한다. 코드북 측면에서는 기존의 잔차(residual) 코드북이 순차적 토큰 생성에 최적화된 반면, MDGR은 OPQ(Optimized Product Quantization) 기반의 **병렬 코드북(parallel codebook)**을 사용한다. 아이템 임베딩을 여러 서브스페이스로 분할하고 각각을 독립적으로 양자화함으로써, 하나의 SID가 L개의 토큰으로 구성되지만 이 토큰들은 서로 독립적인 코드북에 매핑된다. 결과적으로 토큰 간 구조적 제약은 유지하면서도 병렬 처리가 가능해진다.

학습 단계에서는 마스크드 디퓨전(masked diffusion) 프레임워크를 도입한다. 전통적인 디퓨전 모델은 고정된 노이즈 스케줄에 따라 무작위로 마스크를 삽입하지만, SID는 토큰마다 중요도와 난이도가 다르다. MDGR은 두 차원의 마스킹 전략을 설계한다.

  1. 시간 차원(Temporal Curriculum): 커리큘럼 러닝을 차용해 초기 학습에서는 낮은 마스킹 비율(예: 15%)을 적용하고, 학습이 진행될수록 점진적으로 마스크 비율을 증가시켜 모델이 점점 더 어려운 복원 과제를 경험하도록 한다. 이는 모델이 쉬운 패턴을 먼저 학습하고, 이후 복잡한 전역 의존성을 습득하게 만든다.
  2. 샘플 차원(Sample-aware Masking): 사용자의 히스토리에서 드물게 등장한 토큰을 우선적으로 마스크하는 히스토리‑어웨어 마스크 할당을 적용한다. 이를 위해 각 토큰에 ‘난이도 벡터(difficulty vector)’를 정의하고, 마스크 샘플링 시 난이도가 높은 토큰에 높은 확률을 부여한다. 결과적으로 모델은 사용자별로 특화된 어려운 사례에 집중 학습하게 된다.

학습 손실은 마스크된 위치에 대해서만 교차 엔트로피를 계산하는 전통적인 디퓨전 손실과 동일하지만, 위의 두 마스킹 전략이 결합되어 보다 효율적인 지도 신호를 제공한다. 또한, 입력에 현재 타임스텝 τ와 사용자 히스토리를 함께 제공함으로써 시계열적 조건부 정보를 충분히 활용한다.

추론 단계에서는 워밍업 기반 두 단계 병렬 디코딩을 제안한다. 첫 번째 워밍업 단계에서는 소수의 스텝만을 사용해 **단일 포지션 디코딩(single-position decoding)**을 수행한다. 이 단계는 SID 내 핵심 토큰(예: 카테고리, 브랜드 등)을 빠르게 확정하여 전체 시퀀스의 구조적 골격을 잡는다. 두 번째 단계에서는 **병렬 디코딩(parallel decoding)**을 적용해 남은 토큰들을 동시에 복원한다. 병렬 단계에서는 토큰 그룹을 묶어 한 번에 예측하고, 필요에 따라 **빔 서치(beam search)**를 결합해 다수의 후보 SID를 생성한다. 이렇게 두 단계로 나누면 초기 불확실성을 크게 감소시키면서도 전체 디코딩 횟수를 크게 줄일 수 있어 실시간 서비스에 적합한 추론 속도를 달성한다.

실험에서는 두 개의 공개 데이터셋(예: Amazon, MovieLens)과 알리바바 내부 광고 데이터셋을 사용해 10개의 최신 SOTA 모델(TIGER, Cobra, RPG 등)과 비교하였다. MDGR은 HR@10, NDCG@10 등 주요 지표에서 7.17%~10.78%의 절대적 향상을 보였으며, 특히 사용자별 속성 순서가 다양하게 나타나는 상황에서 자동회귀 대비 큰 격차를 나타냈다. 온라인 A/B 테스트 결과, 광고 매출이 1.20% 상승하고 GMV가 3.69% 증가하는 등 비즈니스 임팩트도 검증되었다.

본 연구는 추천 시스템에 디퓨전 모델을 적용하는 최초의 시도 중 하나이며, 마스크 비율을 사용자 히스토리와 연동한 커리큘럼 설계, 그리고 워밍업‑병렬 디코딩이라는 실용적인 추론 파이프라인을 제시함으로써 학술적·산업적 가치를 동시에 제공한다. 향후 연구에서는 마스크 스케줄을 강화 학습으로 최적화하거나, 멀티모달(텍스트·이미지·비디오) 정보를 통합한 확장형 코드북 설계가 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기