LLM과 그래프 기반 최적 적응 전송을 결합한 멀티모달 추천 프레임워크 RecGOAT
초록
RecGOAT은 대형 언어·비전 모델(LLM·LVM)에서 추출한 풍부한 텍스트·이미지 임베딩과 전통적인 ID 기반 협업 신호를 그래프 어텐션 네트워크와 최적 적응 전송(OAT)으로 정교히 정렬한다. 인스턴스 수준은 교차‑모달 대조학습(CMCL)으로, 분포 수준은 1‑Wasserstein 거리 최소화를 통한 OT로 수행한다. 이중 정렬 이론적 보장을 통해 통합 표현의 의미 일관성과 포괄성을 확보하고, 공개 데이터셋 및 대규모 광고 플랫폼 실험에서 최신 성능을 달성한다.
상세 분석
RecGOAT은 멀티모달 추천 시스템이 직면한 ‘표현 이질성’ 문제를 두 단계의 정렬 메커니즘으로 해결한다. 첫 번째 단계는 그래프 어텐션 네트워크(GAT, LightGCN)를 이용해 아이템‑아이템, 사용자‑아이템, 사용자‑사용자 관계를 고차원으로 확장한다. 여기서 각 노드의 초기 특징은 Qwen‑Embedding‑8B(텍스트)와 LLaVA‑1.5‑7B(이미지) 같은 최신 LLM·LVM으로부터 얻으며, 사용자에 대해서는 Qwen‑32B를 활용한 프롬프트 기반 ‘선호 추론’ 임베딩을 만든다. K‑NN 기반의 고정 그래프를 구성해 각 모달리티별 유사도 구조를 보존하고, 어텐션 메커니즘으로 이질적인 그래프들을 동적으로 가중합한다는 점이 기존 GNN 기반 멀티모달 추천보다 더 풍부한 협업 신호를 제공한다.
두 번째 단계는 ‘이중‑Granularity 정렬’이다. 인스턴스 수준에서는 텍스트·이미지·ID 임베딩을 동일한 배치 내에서 교차‑모달 대조학습(CMCL)으로 끌어당겨, 양극화된 벡터 간의 코사인 유사도를 InfoNCE 손실로 최소화한다. 이는 개별 샘플 간 의미적 일치를 보장하지만, 전체 분포 형태를 반영하지 못한다는 한계가 있다. 이를 보완하기 위해 RecGOAT은 Optimal Adaptive Transport(OAT)를 도입한다. 각 모달리티와 ID 간의 1‑Wasserstein 거리를 최소화하면서, 학습 가능한 적응 파라미터를 포함한 전송 행렬을 jointly 학습한다. 이 전송 행렬은 OT 최적화와 추천 손실(BPR) 사이에 직접적인 그래디언트 흐름을 제공해, 전역적인 분포 정렬을 동시에 수행한다.
이론적 기여는 두 정렬 손실 사이의 상한을 정량화한 증명에 있다. 저자들은 통합 표현 𝑧̂의 목표 오류가 개별 모달리티 오류보다 작으며, 그 차이는 Wasserstein 거리와 InfoNCE 손실의 합으로 유계됨을 보였다. 따라서 모델이 학습 과정에서 두 손실을 동시에 최소화하면, 의미 일관성과 포괄성이 동시에 달성된다는 강력한 보장을 제공한다.
실험에서는 세 개의 공개 멀티모달 추천 벤치마크(예: Baby, Clothing, Movie)와 대규모 광고 클릭 데이터에서 RecGOAT이 기존 최첨단 모델보다 4~7%p의 NDCG 향상을 기록했다. Ablation 연구는 CMCL만 사용했을 때와 OAT만 사용했을 때보다 두 정렬을 결합했을 때 성능이 가장 크게 상승함을 확인한다. 또한, 온라인 A/B 테스트에서 클릭률(CTR)이 5.2% 상승하고, 시스템 지연시간이 12% 감소하는 등 실서비스 적용 가능성을 입증한다.
요약하면, RecGOAT은 (1) LLM·LVM 기반 풍부한 모달리티 특징을 그래프 구조에 효과적으로 주입, (2) 인스턴스‑레벨 대조와 분포‑레벨 OT를 결합한 이중 정렬 프레임워크, (3) 정량적 이론적 보장을 통한 통합 표현의 신뢰성 확보라는 세 축을 통해 멀티모달 추천의 성능 한계를 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기