다중모달 의미·협업 신호 융합 생성형 추천 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MSCGRec은 텍스트와 이미지 등 여러 의미 모달리티와 기존 순차 추천기의 협업 임베딩을 하나의 생성형 프레임워크에 결합한다. 이미지 코드는 DINO 기반 자기지도 양자화로 학습하고, 학습 시 허용 토큰 집합으로 출력 공간을 제한해 효율성을 높인다. 대규모 실험에서 전통 순차 추천과 기존 생성형 모델을 모두 능가한다.

상세 분석

본 논문은 기존 생성형 추천이 텍스트 기반 코드에만 의존하고 협업 정보를 충분히 활용하지 못한다는 두 가지 한계를 정확히 짚어낸다. 첫 번째는 실제 서비스 환경에서 이미지, 동영상 등 다중 모달 데이터가 풍부함에도 불구하고 코드화가 텍스트에 국한된 점이다. 두 번째는 협업 신호를 별도 손실 함수로 보강하는 기존 접근법이 복잡성을 높이고 최적화 효율을 떨어뜨린다는 점이다. MSCGRec은 이러한 문제를 ‘모달리티 별 코드’를 설계함으로써 해결한다. 텍스트는 기존 Residual Quantization(RQ)으로, 이미지는 DINO 기반 자기지도 학습 후 RQ를 적용해 의미적 일관성을 유지한다. 특히 이미지 양자화 단계에서 학생 네트워크의 임베딩을 직접 양자화하고, 교사 네트워크와의 교차 엔트로피 손실을 통해 양자화된 표현이 교사의 풍부한 표현력을 최대한 보존하도록 유도한다. 이는 이미지 전용 재구성 손실을 없애면서도 의미적 구분력을 확보한다는 점에서 혁신적이다.

협업 신호는 별도의 모달리티로 취급한다. 순차 추천기(SASRec 등)에서 학습된 아이템 임베딩을 RQ로 코딩하고, 이를 다른 모달리티와 동일한 계층 구조로 결합한다. 이렇게 하면 추가 손실 없이도 협업 정보가 코드 시퀀스에 자연스럽게 녹아들어, 모델이 텍스트·이미지·협업 세 가지 계층을 동시에 학습한다.

학습 효율을 위해 ‘제한된 시퀀스 학습(constrained sequence learning)’을 도입한다. 전체 토큰 집합이 수십만에 달할 수 있는 상황에서, 각 단계마다 허용된 토큰(즉, 실제 아이템에 매핑되는 코드)만을 후보로 삼아 교차 엔트로피를 계산한다. 이는 불필요한 부정확한 토큰 탐색을 방지하고, 학습 안정성을 크게 향상시킨다. 또한 마스크 토큰을 이용해 일부 모달리티를 의도적으로 결손시켜 훈련함으로써, 실제 서비스에서 텍스트나 이미지가 누락된 아이템에 대한 강인성을 확보한다.

실험은 PixelRec, Amazon-Book, 그리고 대규모 동영상 스트리밍 데이터셋 등 3개의 실제 규모 데이터에서 수행되었다. MSCGRec은 HR@10, NDCG@10 등 주요 지표에서 기존 순차 추천(SASRec, BERT4Rec)과 최신 생성형 모델(TIGER, VQ‑Rec) 모두를 크게 앞섰으며, 특히 아이템 수가 100만을 초과하는 경우 메모리 사용량이 기존 임베딩 기반 방법보다 70% 이상 절감되는 효과도 확인했다. Ablation study에서는 이미지 양자화 없이 텍스트만 사용했을 때 성능이 4~6% 감소하고, 협업 모달리티를 제외했을 때도 비슷한 수준의 손실이 발생함을 보여, 각 구성 요소가 상호 보완적으로 작용함을 입증한다.

요약하면, MSCGRec은 (1) 다중 모달리티를 위한 독립적 양자화 전략, (2) 협업 임베딩을 별도 모달리티로 통합, (3) 출력 토큰 공간을 제한하는 학습 기법이라는 세 가지 핵심 혁신을 통해 대규모 아이템 셋에서도 메모리 효율적이면서도 높은 정확도를 달성한다는 점에서 생성형 추천 분야에 중요한 전진을 제시한다.

다중모달 의미·협업 신호 융합 생성형 추천 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기