LLM과 강화학습을 결합한 장기 만족형 인터랙티브 추천 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 의미론적 계획 능력과 강화학습(RL)의 세밀한 적응성을 계층적으로 결합한 LERL 프레임워크를 제안한다. 고수준 LLM 플래너가 사용자 히스토리를 기반으로 다양하고 과다노출되지 않은 카테고리를 선택하고, 저수준 RL 정책이 해당 카테고리 내에서 개인화된 아이템을 추천한다. 실험 결과, LERL은 기존 최첨단 방법들에 비해 장기 사용자 만족도와 다양성 지표에서 현저히 우수함을 보인다.

상세 분석

LERL은 인터랙티브 추천 시스템의 두 가지 핵심 문제, 즉 “콘텐츠 동질성·필터 버블”과 “희소·롱테일 상호작용”을 동시에 해결하기 위해 계층적 설계를 채택한다. 고수준 플래너는 사전학습된 LLM을 프롬프트 기반으로 활용해 사용자와 과거 세션들의 카테고리‑레벨 히스토리를 입력으로 받고, “다양성 우선, 과다노출 억제”라는 목표를 명시적으로 포함한 프롬프트를 통해 카테고리 집합 cₜ를 출력한다. 여기서 중요한 점은 LLM이 텍스트 기반의 반성(reflection) 풀을 샘플링해 프롬프트에 삽입함으로써, 장기 보상 Sᵤ 가 높은 세션들의 요약을 학습에 반영한다는 것이다. 이는 LLM이 단순히 즉시 예측을 하는 것이 아니라, 과거 성공 사례를 언어적으로 재구성해 전략적 의사결정에 활용하게 만든다.

저수준 정책 학습자는 강화학습 프레임워크를 사용해 선택된 카테고리 cₜ 내에서 아이템 aₜ 를 추천한다. 사용자 아이템 상호작용 히스토리를 Transformer‑Encoder로 인코딩해 순차적 선호 특징 eₚₜ 를 추출하고, 이를 Gaussian 정책(μₜ,σₜ)으로 매핑한다. 정책은 PPO 등 최신 오프‑폴리시 알고리즘으로 최적화되며, 보상 rₜ 는 클릭·평점·세션 지속시간 등 즉시 피드백과 장기 만족을 촉진하는 다양성 보상(예: 카테고리 포화도 페널티)의 합으로 정의된다.

행동 공간을 카테고리 수준에서 제한함으로써 탐색 비용을 크게 감소시키고, LLM이 제공하는 의미론적 제약이 RL 에이전트의 탐색을 더 효율적인 영역으로 유도한다. 또한, 시뮬레이션 환경을 구축해 로그 데이터 기반의 사용자 행동 모델을 사용함으로써 온라인 실험 비용을 절감하고 재현성을 확보한다.

실험에서는 MovieLens 1M, Amazon Books 등 실제 대규모 데이터셋을 사용했으며, LERL은 HR@10, NDCG@10 같은 정확도 지표와 Diversity@10, Coverage 같은 다양성 지표 모두에서 기존 RL‑only, LLM‑only, 그리고 전통적 재랭킹 기반 방법들을 크게 앞섰다. 특히 장기 보상 γ 가 0.99인 설정에서 사용자 세션 평균 길이가 20% 증가하고, 필터 버블 지표인 “Category Saturation”이 15% 감소하는 효과를 보였다.

한계점으로는 LLM 프롬프트 설계와 반성 풀 샘플링에 대한 하이퍼파라미터 민감도가 존재하고, 실제 온라인 서비스에 적용할 경우 LLM 호출 비용과 지연시간이 실시간 요구사항을 충족시키기 어려울 수 있다. 향후 연구에서는 경량화된 LLM(예: LoRA‑fine‑tuned 모델) 적용, 멀티‑모달 사용자 컨텍스트 통합, 그리고 온라인 A/B 테스트를 통한 실시간 피드백 루프 구축이 제안된다.

LLM과 강화학습을 결합한 장기 만족형 인터랙티브 추천 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기