샘플 효율과 안정성을 겸비한 LLM 기반 추천을 위한 강화 학습 프레임워크 RISER
초록
본 논문은 순차 추천에 Long Chain‑of‑Thought(Long CoT)가 비효율적임을 지적하고, 그 근본 메커니즘인 강화 학습(RL)을 직접 적용한다. 저자는 샘플 활용도 저하와 학습 불안정성을 해결하기 위해 SimPO 기반 선호 변환, 롤아웃 과잉샘플링·중복제거, 토큰‑레벨 KL‑Cov 정규화 및 마스크 손실을 도입한 RISER 프레임워크를 제안한다. 세 개 실데이터셋 실험에서 기존 SFT·RL 기반 베이스라인을 크게 능가한다.
상세 분석
RISER는 두 가지 핵심 문제, 즉 “샘플 활용도 저하”와 “학습 불안정성”을 체계적으로 해결한다. 첫 번째 문제는 기존 GRPO가 대부분의 롤아웃에서 0‑advantage를 반환해 정책 그라디언트가 사라지는 점이다. 이를 위해 논문은 SimPO를 차용해 실패한 롤아웃을 ‘정답 vs. 오답’ 선호 쌍으로 변환하고, Bradley‑Terry 모델로 확률적 선호를 학습한다. 이렇게 하면 모든 생성된 시퀀스가 학습 신호가 되며, 샘플 효율이 크게 향상된다. 두 번째 문제는 아이템 ID가 텍스트 토큰으로 표현될 때 특정 접두어 토큰에 과도한 업데이트가 집중돼 정책이 특정 아이템에 고정되는 현상이다. RISER는 (1) 과잉샘플링 후 중복제거로 롤아웃 다양성을 확보하고, (2) KL‑Cov 정규화를 통해 고신뢰·고advantage 토큰에만 페널티를 부여해 급격한 분포 변화를 억제한다. 또한, 예측이 확실한 토큰에 대해서는 마스크 손실을 적용해 업데이트 강도를 낮춘다. 이러한 토큰‑레벨 제어는 기존의 전역 KL 정규화보다 미세하게 정책을 안정화한다. 실험에서는 세 개의 공개 데이터셋(예: MovieLens, Amazon 등)에서 HR@10, NDCG@10 등 주요 지표가 5‑10% 이상 개선되었으며, 특히 롤아웃 중복률이 70% 이상 감소하는 등 안정성 향상이 입증되었다. 전체적으로 RISER는 LLM 기반 추천에 RL을 적용할 때 발생하는 근본적인 효율·안정성 문제를 설계‑레벨에서 해결한 점이 혁신적이며, 기존 SFT‑RL 파이프라인을 그대로 사용하던 연구와 차별화된다. 다만, 아이템 설명을 자연어로 변환하는 전처리 비용과 대규모 LLM 파인튜닝에 필요한 GPU 메모리 요구량이 여전히 높은 점은 실용화에 장애가 될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기