멀티모달 추천을 위한 통합 인코더 UniRec

멀티모달 추천을 위한 통합 인코더 UniRec
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

UniRec은 텍스트·이미지·범주·수치 네 가지 모달리티를 모두 처리하도록 설계된 통합 인코더이다. 속성명을 · 유형 · 값의 삼중표현으로 스키마를 명시하고, 계층형 Q‑Former를 통해 아이템‑레벨과 사용자‑레벨의 중첩 구조를 모델링한다. 사전학습·미세조정 두 단계로 LLM과 연계해 다양한 실데이터셋에서 기존 최첨단 모델보다 최대 15% 향상된 성능을 보인다.

상세 분석

본 논문은 기존 LLM 기반 추천 시스템이 텍스트와 이미지 중심에 머물러, 실제 서비스에서 흔히 나타나는 수치·범주·시간·위치 등 이질적인 특성을 충분히 활용하지 못한다는 문제점을 지적한다. 이를 해결하기 위해 UniRec은 네 가지 모달리티별 전용 인코더를 도입한다. 텍스트와 범주형은 Qwen‑3 0.6B 임베딩을, 이미지는 CLIP ViT‑L/14, 수치형은 푸리에 기반의 Math‑Aware Number Encoder를 사용해 1024‑차원 통일 임베딩으로 변환한다. 가장 핵심적인 설계는 “속성 삼중표현”(attribute name, type, value)이다. 이름·유형·값 각각을 임베딩한 뒤 합산해 스키마 정보를 보존함으로써, 동일한 수치형이라도 ‘가격’과 ‘평점’이 구별되도록 한다.

다음으로 계층형 Q‑Former가 두 단계로 작동한다. 첫 단계인 Item‑Q‑Former는 가변 길이 속성 임베딩 집합을 입력받아 고정 길이 아이템 토큰 zₜ를 생성한다. 여기서 학습 가능한 쿼리 집합 Q_item이 각 속성에 집중하도록 설계돼, 속성 간 상호작용을 효과적으로 캡처한다. 두 번째 단계인 User‑Q‑Former는 시간 순서대로 정렬된 아이템 토큰 zₜ와 리뷰 텍스트 임베딩 cₜ, 타임스탬프 임베딩 pₜ를 결합해 사용자 토큰 U를 만든다. 이 과정에서 “Concat(zₜ, cₜ)+pₜ” 형태로 시계열 정보를 명시적으로 주입함으로써, 사용자 히스토리의 중첩 구조를 유지한다.

학습은 사전학습과 미세조정 두 단계로 나뉜다. 사전학습에서는 재구성 손실(L_recon)과 인포NCE 기반 대비 손실(L_contrast)을 가중합해 인코더가 모달리티 간 정렬된 표현을 학습하도록 한다. 특히 인접 아이템을 양성 샘플로 삼아 사용자 행동의 연속성을 반영한다. 미세조정 단계에서는 고정된 모달리티 인코더 위에 LoRA 방식으로 LLM을 미세조정하고, 사용자 토큰을 LLM 임베딩 공간에 소프트 프롬프트로 투사한다. 최종 목표는 InfoNCE 손실을 통해 다음 아이템을 정확히 예측하도록 하는 것이다.

실험에서는 Amazon Beauty·Baby와 Yelp 데이터셋을 활용해 5‑core 필터링 후 20‑step 히스토리를 사용하였다. UniRec은 기존 멀티모달 시퀀스 모델(GRU4Rec, SASRec 등), 멀티모달 추천 모델(VBPR, MMGCN 등), 최신 LLM‑멀티모달 하이브리드 모델을 모두 능가했으며, 특히 속성 스키마 보존과 계층형 집계가 성능 향상에 크게 기여함을 Ablation 실험으로 입증했다. 전체적으로 UniRec은 이질적인 추천 신호를 구조적으로 보존하면서 LLM이 효과적으로 추론하도록 하는 설계 원칙을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기