멀티모달 시퀀스 아이템 그래프 추천: MuSICRec의 혁신
초록
MuSICRec은 사용자‑아이템 협업 그래프에 시퀀스‑아이템(SI) 그래프와 정적인 멀티모달 아이템‑아이템 그래프를 결합한 다중 뷰 모델이다. 사용자의 상호작용 시퀀스를 어텐션 풀링으로 하나의 시퀀스 노드로 변환하고, SI 그래프를 통해 자연스러운 대조 뷰를 생성한다. 텍스트·이미지 특징은 ID‑가이드 게이트로 가중치를 조절해 노이즈를 억제한다. Amazon 베이비·스포츠·전자제품 데이터셋에서 짧은 히스토리를 가진 사용자에게 특히 큰 성능 향상을 보이며, 기존 협업·시퀀스·멀티모달·대조 기반 베이스라인을 모두 능가한다.
상세 분석
MuSICRec은 기존 추천 시스템이 직면한 두 가지 근본적인 한계—시퀀스 정보의 미반영과 멀티모달 노이즈—를 동시에 해결한다. 첫 번째로, 사용자의 행동 시퀀스를 “노드”로 취급하는 시퀀스‑아이템(SI) 그래프를 도입한다. 이는 기존의 협업 필터링이 사용자‑아이템 이분 그래프에만 의존해 장기적인 아이템 전이 패턴을 포착하지 못하는 문제를 보완한다. 시퀀스 노드는 어텐션 풀링을 통해 길이‑불변 표현을 얻으며, 중요한 과거 아이템에 더 높은 가중치를 부여한다. 이후 SI 그래프에서 시퀀스‑시퀀스(Jaccard 기반)와 시퀀스‑아이템(단위 가중치) 연결을 통해 고차 전이와 공동 발생 구조를 학습한다. 이 과정에서 얻어지는 SI 뷰는 인위적인 그래프 변형(노드/엣지 드롭아웃, 랜덤 워크 등) 없이 데이터 자체가 제공하는 행동 토폴로지를 활용하므로, 의미 손실이 최소화된다.
두 번째로, 멀티모달 정보 통합에 ID‑가이드 게이트를 적용한다. 각 아이템은 사전 추출된 텍스트·이미지 임베딩을 선형 변환 후, 사용자 ID 임베딩과 결합한다. 게이트는 ID 임베딩을 입력으로 받아 텍스트와 이미지의 비중을 동적으로 조절함으로써, 특정 도메인에서 한 모달리티가 과도하게 지배하는 현상을 억제한다. 이는 FREEDOM에서 제안된 고정 아이템‑아이템 그래프와 결합해 LightGCN‑스타일 전파를 수행함으로써, 협업 신호와 멀티모달 신호가 서로 보완하도록 설계되었다.
학습 단계에서는 UI 그래프와 SI 그래프 각각에 대해 라이트GCN‑형식의 다중 레이어 평균 풀링을 수행하고, 최종 사용자·아이템 임베딩을 얻는다. 이후 사용자와 해당 시퀀스 노드 사이에 엔터티‑레벨 대조 손실을 적용해 두 뷰를 정렬한다. 대조 손실은 인위적 노이즈가 아닌 구조적 차이를 활용하므로, 희소 사용자에 대한 표현 학습이 크게 개선된다.
실험 결과, Amazon 데이터셋(베이비, 스포츠, 전자제품)에서 NDCG@10, HR@10 모두 기존 최첨단 모델을 상회한다. 특히 히스토리 길이가 5 이하인 사용자군에서 10% 이상 성능 향상이 관찰되었으며, 이는 SI 그래프가 짧은 시퀀스에서도 의미 있는 전이 정보를 제공함을 의미한다. Ablation study에서는 (1) SI 뷰 제거 시 성능 급락, (2) ID‑가이드 게이트 비활성화 시 멀티모달 노이즈가 증가해 전체 점수가 감소함을 확인했다.
전반적으로 MuSICRec은 (i) 시퀀스를 그래프 노드로 변환해 자연스러운 대조 뷰를 제공, (ii) ID‑가이드 멀티모달 게이팅으로 노이즈를 억제, (iii) 세 가지 그래프(사용자‑아이템, 시퀀스‑아이템, 아이템‑아이템)를 통합해 협업·시퀀스·멀티모달 신호를 균형 있게 활용한다는 점에서 기존 방법론을 뛰어넘는 설계적 혁신을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기