이중트리 기반 LLM 강화 부정 샘플링 암시적 협업 필터링
초록
본 논문은 텍스트와 파인튜닝에 의존하지 않는 새로운 부정 샘플링 프레임워크 DTL‑NS를 제안한다. 협업 구조와 잠재 의미를 반영한 두 개의 계층형 인덱스 트리를 구축해 아이템을 경로 인코딩으로 변환하고, 이를 LLM에 입력해 오프라인으로 거짓 부정을 정확히 식별한다. 이후 사용자‑아이템 선호 점수와 아이템‑아이템 트리 유사도를 결합한 다중 뷰 하드 네거티브 샘플링으로 학습 효율과 추천 정확도를 크게 향상시킨다.
상세 분석
DTL‑NS는 기존 부정 샘플링이 겪는 두 가지 핵심 한계를 동시에 해결한다. 첫째, 텍스트 기반 LLM 활용은 메타데이터가 부족한 도메인에서 적용이 어려운데, 저자는 아이템 ID만으로 의미를 부여하기 위해 협업 구조 트리와 잠재 의미 트리를 각각 구축한다. 협업 구조 트리는 사용자 집합의 자카드 유사도로 정의된 아이템‑아이템 유사 행렬을 그래프 라플라시안 스펙트럴 임베딩으로 저차원 벡터화한 뒤, 클러스터링을 통해 계층적 트리를 만든다. 잠재 의미 트리는 기존 CF 모델(예: MF, LightGCN)의 임베딩을 직접 사용해 유사도 기반 클러스터링을 수행한다. 두 트리의 경로 인코딩은 “루트‑레벨1‑레벨2‑…‑리프” 형태의 정수 시퀀스로, LLM이 이해할 수 있는 구조적·의미적 정보를 제공한다.
둘째, LLM을 학습 단계에 반복 호출하면 비용이 급증한다. DTL‑NS는 오프라인 단계에서만 LLM 추론을 수행한다. 변환된 경로 인코딩을 프롬프트에 삽입해 LLM에게 “이 아이템이 실제로 사용자가 선호했을 가능성이 높은가?”를 판단하게 하고, 80%‑90% 수준의 높은 거짓 부정 식별 정확도를 달성한다. 식별된 거짓 부정은 긍정 샘플로 전환돼 훈련 데이터에 추가됨으로써, 기존의 “부정 샘플을 피한다” 전략을 넘어 “잠재 긍정 신호를 활용한다”는 새로운 패러다임을 제시한다.
다중 뷰 하드 네거티브 샘플링 단계에서는 사용자‑아이템 선호 점수(예: BPR 예측 스코어)와 아이템‑아이템 트리 경로 간 유사도(공통 조상 깊이 또는 트리 거리)를 가중합해 복합 점수를 산출한다. 이 점수는 기존 스코어 기반 샘플링보다 아이템 간 구조·의미적 근접성을 반영하므로, 실제로 구분이 어려운 하드 네거티브를 효과적으로 추출한다. 실험 결과, Amazon‑Sports 데이터셋에서 Recall@20과 NDCG@20이 각각 10.64%와 19.12% 상승했으며, 다양한 CF 모델(BPR, LightGCN 등)과 기존 부정 샘플링 기법에 플러그인했을 때 일관된 성능 향상을 보였다.
전반적으로 DTL‑NS는 (1) 텍스트 없이 아이템 ID만으로 의미를 부여하는 트리 기반 인코딩, (2) 오프라인 LLM 추론을 통한 비용 효율적인 거짓 부정 식별, (3) 다중 뷰 점수를 활용한 하드 네거티브 샘플링이라는 세 축을 결합해 기존 부정 샘플링의 한계를 근본적으로 극복한다는 점에서 혁신적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기