멀티모달 순차 추천을 위한 통합 트랜스포머 프레임워크
초록
MuSTRec은 텍스트와 이미지 등 멀티모달 특성을 활용한 아이템‑아이템 그래프와, 사용자‑아이템 이분 그래프를 결합한 뒤 LightGCN으로 임베딩을 생성하고, 이를 시퀀스 형태로 변환해 주파수 기반 고역 필터를 포함한 트랜스포머 헤드에 입력한다. BPR 손실과 CE 손실을 동시에 최적화해 협업 필터링과 순차적 선호를 동시에 학습한다. Amazon 데이터셋 실험에서 기존 멀티모달·순차 모델 대비 최대 33.5% 성능 향상을 달성했으며, 작은 데이터셋에서는 사용자 임베딩을 추가함으로써 단기 정확도가 200%까지 상승한다.
상세 분석
MuSTRec은 기존 순차 추천과 멀티모달 추천을 별도로 다루던 한계를 극복하기 위해 세 가지 핵심 설계를 결합한다. 첫 번째는 각 모달리티(텍스트, 이미지)별로 사전 학습된 인코더를 이용해 아이템 임베딩을 추출하고, 코사인 유사도 기반 k‑NN 스파시피케이션을 통해 아이템‑아이템 그래프를 구축한다. 이때 그래프 가중치는 모달리티별 가중치 αₘ으로 조정 가능하며, 이는 데이터 특성에 따라 튜닝된다. 두 번째는 사용자‑아이템 이분 그래프에 대해 degree‑sensitive edge pruning을 적용해 고빈도 노드와의 연결을 낮은 확률로 유지함으로써 과도한 스무딩을 방지한다. 정규화된 인접 행렬 A는 LightGCN 레이어(L_uᵢ, L_ii)를 통해 사용자와 아이템의 협업 임베딩을 학습하고, 아이템 임베딩은 사용자‑아이템 그래프와 아이템‑아이템 그래프의 합산으로 최종 표현을 만든다. 세 번째는 이러한 정적 임베딩을 시간 순서대로 배열해 트랜스포머‑형 시퀀스 헤드에 입력하는데, 여기서는 기존 셀프‑어텐션에 Fourier 변환 기반의 주파수 필터를 추가한다. 저주파 성분(LFC)과 고주파 성분(HFC)을 각각 가중치 β와 (1‑β)로 조절하고, 전체 어텐션은 α·Λ_IB + (1‑α)·Λ 로 블렌딩한다. 이 설계는 트랜스포머가 저주파 중심의 과도한 스무딩에 빠지는 문제를 완화하고, 사용자의 단기 행동 변화를 고주파 성분으로 포착하도록 만든다. 학습 목표는 BPR 손실을 통해 그래프 임베딩의 순위 품질을 보장하고, CE 손실을 통해 시퀀스 헤드가 다음 아이템을 정확히 예측하도록 하는 이중 손실 구조이며, ω 파라미터로 두 손실의 비중을 조절한다. 실험에서는 Amazon Beauty, Clothing, Sports 등 3개의 대규모 데이터셋에서 HR@10, NDCG@10 등 표준 지표를 사용해 최신 멀티모달(GRCN, LA‑TTICE) 및 순차(SASRec, BSARec) 모델을 모두 능가했으며, 특히 데이터가 희소한 소규모 셋에서는 사용자 임베딩을 시퀀스 앞에 삽입한 MuSTRec‑S 변형이 단기 정확도를 200% 이상 끌어올렸다. 이러한 결과는 멀티모달 그래프와 협업 그래프를 사전 학습·고정함으로써 연산 비용을 절감하고, 주파수 기반 어텐션이 순차 모델의 일반화 능력을 크게 향상시킨다는 점을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기