MiniRec: 효율적인 강화학습 기반 LLM 추천 데이터 선택
초록
MiniRec은 대형 언어 모델(LLM) 기반 추천 시스템에 강화학습(RL)을 적용할 때, 학습 효율성을 크게 향상시키기 위한 데이터 선택 프레임워크이다. 보상 신호를 이용해 학습 난이도를 평가하고, 전역 최적화 방향과의 그래디언트 정렬을 통해 대표성을 측정하며, 다양성 제어와 커리큘럼 학습을 결합해 전체 데이터 대비 적은 양의 샘플만으로도 성능을 유지한다.
상세 분석
본 논문은 RL 기반 LLM 추천에서 기존 데이터 선택 방법이 손실·그래디언트 기반 학습 가능성 혹은 데이터 커버리지를 기준으로 삼아 RL 특유의 학습 역학과 불일치한다는 문제점을 지적한다. 특히 GRPO와 같은 그룹 기반 정책 최적화에서는 보상 비교가 핵심이므로, 손실이 낮거나 그래디언트가 큰 샘플이 반드시 학습에 기여한다는 보장이 없으며, 저보상 샘플이 과도하게 손실을 유발해 비효율을 초래한다. 또한 입력‑출력 쌍만을 커버하는 전통적 대표성 측정은 “입력→추론→출력” 과정을 학습하는 RL 모델에 적합하지 않다.
MiniRec은 이러한 두 가지 한계를 동시에 해결한다. 첫째, 학습 가능성(Learnability)은 샘플별 평균 보상을 프록시 모델로 추정해 정의한다. 보상이 지나치게 높아 쉽게 최적화되는 샘플과, 지속적으로 낮아 학습 가치가 없는 샘플을 각각 낮은 점수로 처리해, 중간 난이도 구간에 해당하는 샘플에 집중한다. 둘째, 대표성(Representativeness)은 전체 최적화 궤적을 근사한 “이상적인” 업데이트 방향을 구하고, 각 샘플의 그래디언트와 이 방향 사이의 코사인 유사도를 측정한다. 이 방식은 실제 추론 과정이 반영된 파라미터 변화를 기준으로 하므로, 입력‑출력 관계만을 보는 기존 방법보다 RL 학습에 더 직관적인 대표성을 제공한다.
다양성 제어는 선택된 샘플 집합과의 유사도를 기반으로 점수를 동적으로 조정함으로써, 고점수이지만 서로 매우 유사한 샘플이 중복 선택되는 현상을 방지한다. 마지막으로, 커리큘럼 학습을 도입해 선택된 데이터를 난이도 순으로 여러 배치(K)로 나누어 학습한다. 초기에는 쉬운 샘플만 노출해 안정적인 정책 업데이트를 유도하고, 점진적으로 어려운 샘플을 추가함으로써 모델이 풍부한 보상 신호를 활용하도록 설계되었다.
실험에서는 Gemma‑2‑2b‑it 등 다양한 실제 추천 데이터셋에 대해 전체 데이터 대비 30%50% 수준의 샘플만 사용해도 NDCG·HR 지표에서 거의 동일하거나 약간 향상된 성능을 보였다. 특히 K‑means 기반 임베딩 커버리지 방법이 무작위 샘플링보다 못한 결과를 보인 점은, RL 특화 대표성 측정의 필요성을 실증한다. 또한, 보상 기반 학습 가능성 필터링만 적용해도 손실 기반 필터링 대비 57%의 효율 향상이 관찰되었으며, 그래디언트 정렬과 다양성 제어를 결합했을 때 전체 학습 시간은 약 40% 감소하면서도 성능 저하가 거의 없었다.
이러한 결과는 보상 신호와 최적화 궤적을 직접 활용한 데이터 선택이 RL‑LLM 추천 시스템의 데이터 효율성을 크게 개선할 수 있음을 보여준다. MiniRec은 기존 데이터 선택 프레임워크에 비해 RL 학습 역학에 더 잘 맞는 평가 기준을 제공함으로써, 대규모 LLM을 실제 서비스 환경에 적용할 때 필요한 연산·메모리 비용을 현저히 낮출 수 있는 실용적인 솔루션이다.
댓글 및 학술 토론
Loading comments...
의견 남기기