LLM 기반 아이템투아이템 추천의 데이터 강화 전략

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.21595
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

아이템투아이템(I2I) 추천 모델은 높은 확장성, 실시간 추천 가능성 및 비교적 우수한 품질 때문에 실제 서비스에서 핵심적인 역할을 수행한다. 기존 연구는 모델을 더 깊고 복잡하게 만드는 모델 중심 방법과, 고품질 데이터를 정제·생성하는 데이터 중심 방법으로 나뉜다. 모델 중심 접근은 연산 자원 소모와 응답 지연을 초래할 위험이 있는 반면, 데이터 중심 접근은 기존 모델을 그대로 유지하면서 비용 효율적으로 성능을 향상시킬 수 있다. 그러나 데이터 희소성 및 노이즈 문제는 여전히 큰 장애물이다. 본 논문에서는 이러한 문제를 해결하기 위해 대형 언어 모델(LLM)을 활용한 데이터 생성·판별 파이프라인인 LLM‑I2I를 제안한다. 먼저 사용자 행동 로그를 이용해 LLM 기반 데이터 생성기를 학습시켜, 특히 롱테일 아이템에 대한 가상 사용자‑아이템 상호작용을 합성한다. 이어서 LLM 기반 데이터 판별기를 구축해 합성 데이터와 기존 로그 중 품질이 낮은 상호작용을 걸러내어 정제된 데이터셋을 만든다. 정제된 실제 데이터와 합성 데이터를 결합해 I2I 모델을 학습시키면, 산업용 데이터셋(AEDS)와 학술용 데이터셋(ARD) 모두에서 추천 정확도가 크게 향상된다. 실제 대규모 해외 전자상거래 플랫폼에 적용한 결과, 기존 I2I 모델 대비 Recall Number가 6.02 %, GMV가 1.22 % 상승하는 효과를 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

본 연구는 아이템투아이템(Item‑to‑Item, I2I) 추천 시스템의 성능 향상을 위해 ‘데이터 중심’ 접근법에 초점을 맞춘 점이 가장 큰 특징이다. 전통적으로 추천 시스템 성능 개선은 모델의 복잡도를 높이거나 새로운 알고리즘을 도입하는 ‘모델 중심’ 방법에 의존해 왔다. 그러나 이러한 방법은 실시간 서비스 환경에서 연산 비용 증가, 응답 지연, 그리고 모델 업데이트에 따른 서비스 중단 위험을 동반한다. 반면 데이터 자체를 개선하면 기존 모델을 그대로 사용하면서도 비용 효율적인 성능 향상이 가능하다.

논문은 두 가지 핵심 모듈, 즉 ‘LLM 기반 데이터 생성기’와 ‘LLM 기반 데이터 판별기’를 설계하였다. 데이터 생성기는 사용자 행동 로그를 프롬프트로 활용해 대형 언어 모델을 미세조정(fine‑tuning)함으로써, 특히 데이터가 부족한 롱테일 아이템에 대한 가상의 사용자‑아이템 상호작용을 합성한다. 여기서 중요한 점은 LLM이 텍스트 기반 지식을 활용해 아이템 간 의미적 연관성을 추론하고, 이를 기반으로 현실적인 클릭·구매 시나리오를 만들어낸다는 것이다. 이는 전통적인 데이터 증강 기법이 단순히 아이템 메타데이터를 복제하거나 노이즈를 추가하는 방식과는 차별화된다.

생성된 데이터는 그대로 사용하면 노이즈가 섞일 위험이 있다. 이를 방지하기 위해 논문은 ‘데이터 판별기’를 도입한다. 판별기는 LLM을 다시 한 번 활용해, 생성된 상호작용이 실제 사용자 행동과 얼마나 일치하는지를 평가한다. 구체적으로, 판별기는 ‘사용자 의도’, ‘아이템 컨텍스트’, ‘시간적 연속성’ 등을 고려해 신뢰도 점수를 부여하고, 일정 임계값 이하인 샘플을 제거한다. 이 과정은 데이터 정제 단계에서 인간 라벨러가 수행하던 작업을 자동화함으로써 비용을 크게 절감한다.

정제된 실제 데이터와 고품질 합성 데이터를 결합해 I2I 모델을 학습시키면, 기존 데이터만 사용할 때보다 아이템 간 유사도 매트릭스가 더 풍부해진다. 실험에서는 대표적인 I2I 모델들을 AEDS(산업 데이터)와 ARD(학술 데이터)에 적용했으며, 모든 경우에서 Recall@K와 NDCG가 유의미하게 상승했다. 특히 롱테일 아이템에 대한 추천 정확도가 크게 개선돼, ‘희소 아이템 문제’를 효과적으로 완화했다는 점이 주목할 만하다.

실제 서비스 적용 결과도 설득력 있다. 대규모 크로스보더 전자상거래 플랫폼에 LLM‑I2I를 배포했을 때, Recall Number(RN)가 6.02 % 상승하고, 매출을 의미하는 GMV가 1.22 % 증가했다. Recall 상승은 사용자가 더 많은 관련 아이템을 노출받았음을 의미하고, GMV 상승은 이러한 노출이 실제 구매 전환으로 이어졌음을 보여준다. 이는 데이터 중심 접근이 비즈니스 가치 창출에 직접적인 영향을 미칠 수 있음을 입증한다.

한계점으로는 LLM 학습에 필요한 대규모 사전 학습 모델과 GPU 자원이 필요하다는 점이다. 또한, 생성된 데이터가 실제 사용자 행동을 완벽히 대체하지 못하므로, 판별기의 임계값 설정과 정제 기준이 모델 성능에 큰 영향을 미친다. 향후 연구에서는 멀티모달(LM+이미지) 정보를 결합하거나, 온라인 A/B 테스트를 통해 실시간 피드백을 반영하는 적응형 데이터 생성·판별 프레임워크를 탐색할 여지가 있다.

요약하면, LLM‑I2I는 ‘대형 언어 모델을 활용한 데이터 증강·정제 파이프라인’이라는 새로운 패러다임을 제시함으로써, 모델을 교체하지 않고도 I2I 추천 시스템의 성능을 크게 끌어올릴 수 있음을 실증하였다. 이는 비용 효율성과 서비스 안정성을 동시에 추구하는 실무 환경에 매우 유용한 접근법이라 할 수 있다.

📄 논문 본문 발췌 (Translation)

Item‑to‑Item(I2I) 추천 모델은 높은 확장성, 실시간 추천 능력 및 비교적 우수한 추천 품질 덕분에 많은 실제 서비스에서 핵심적인 역할을 차지하고 있다. 이러한 모델의 성능을 향상시키기 위한 연구는 크게 두 가지 방향으로 나뉜다: 1) 모델 중심 방법으로, 기존의 작고 얕은 모델을 더 깊고 복잡한 모델로 업데이트하는 접근법; 2) 데이터 중심 방법으로, 보다 고품질의 데이터를 정제하거나 합성하는 접근법. 전자는 모델 변경에 따른 위험, 계산 자원 사용량 증가, 온라인 응답 시간 지연 등의 문제를 야기할 수 있다. 반면, 후자는 모델을 변경하지 않으면서 온라인 배포 및 서비스 자원 요구량을 증가시키지 않으므로 실무 적용 시 비용 효율적이다. 그러나 데이터 희소성 및 노이즈 문제는 여전히 성능을 저해한다.

본 논문에서는 데이터 중심 방법에 주목하여, 데이터 희소성과 노이즈 문제를 극복하기 위한 Large Language Models(Large Language Models, LLM) 기반 Item‑to‑Item 방법인 LLM‑I2I를 제안한다. 구체적으로, 먼저 사용자 과거 행동 데이터를 이용해 LLM 기반 데이터 생성기를 학습시켜, 특히 롱테일 아이템에 대한 사용자‑아이템 상호작용을 합성함으로써 기존 수집 데이터의 희소성 문제를 완화한다. 이후 LLM 기반 데이터 판별기를 구축하여 약하거나 노이즈가 섞인 사용자‑아이템 상호작용을 걸러내어 수집 데이터와 합성 데이터를 정제한다. 정제된 실제 데이터와 합성 데이터를 결합하여 I2I 모델을 학습한다.

제안된 LLM‑I2I의 효과를 검증하기 위해 다양한 I2I 모델에 적용하고, 산업용 데이터셋(AEDS) 및 학술용 데이터셋(ARD)에서 성능을 비교하였다. 실험 결과, LLM‑I2I는 특히 롱테일 아이템에 대해 추천 결과를 크게 향상시켰다. 또한 대규모 크로스보더 전자상거래 플랫폼에 LLM‑I2I를 적용한 결과, 기존 I2I 기반 모델에 비해 Recall Number(RN)와 Gross Merchandise Value(GMV)가 각각 6.02 %와 1.22 % 상승하는 효과를 확인하였다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키