선택적 LLM 기반 정규화로 강화된 추천 시스템
📝 원문 정보
- Title:
- ArXiv ID: 2512.21526
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
대형 언어 모델(LLM)은 풍부한 의미적 사전지식과 강력한 추론 능력을 제공하여 보조 신호로서 추천에 유망한 후보가 되고 있다. 그러나 기존 접근법은 LLM을 독립적인 추천기로 활용하거나 전역 지식 증류를 적용하는데, 두 경우 모두 근본적인 한계를 가진다. 독립형 LLM 추천기는 비용이 많이 들고 편향이 심하며 사용자‑아이템 공간의 넓은 영역에서 신뢰성이 떨어진다. 전역 증류는 하위 모델이 LLM의 예측을 무조건 모방하도록 강제함으로써, LLM이 부정확한 경우에도 잘못된 지도가 전달된다. 최근 연구에 따르면 LLM은 특히 재랭킹이나 어려운 상황에서 뛰어난 성능을 보이며, 모든 상황에 균등하게 우수한 것은 아니다. 본 논문에서는 S‑LLMR(Selective LLM‑Guided Regularization)이라는 모델‑불변·계산 효율적인 프레임워크를 제안한다. S‑LLMR은 사용자 이력 길이, 아이템 인기, 모델 불확실성 등을 입력으로 하는 학습 가능한 게이팅 메커니즘이 LLM이 신뢰할 수 있다고 판단될 때에만 LLM 기반 쌍(pair) 순위 감독을 활성화한다. 모든 LLM 점수는 오프라인에서 사전 계산되어, 추론 단계에서 추가 비용이 발생하지 않는다. 다중 데이터셋에 대한 실험 결과, 선택적 전략이 전체 정확도를 일관되게 향상시키고, 콜드 스타트 및 롱테일 구간에서 큰 이득을 제공함을 확인했으며, 기존 전역 증류 기반 베이스라인을 능가한다.💡 논문 핵심 해설 (Deep Analysis)
본 연구는 추천 시스템에 LLM을 활용하는 두 가지 전통적 접근법의 근본적인 문제점을 명확히 짚어낸다. 첫 번째는 LLM을 독립적인 추천기로 사용하는 경우이다. LLM은 대규모 파라미터와 복잡한 트랜스포머 구조 때문에 실시간 추론 비용이 매우 높으며, 특히 수백만 명의 사용자와 수십억 개의 아이템을 다루는 실제 서비스 환경에서는 비용 효율성이 크게 저하된다. 또한, LLM은 사전 학습 데이터의 편향을 그대로 물려받아 인기 아이템에 과도하게 집중하거나, 특정 사용자 군에 대한 과소평가를 일으키는 경향이 있다. 두 번째는 전역 지식 증류(distillation) 방식이다. 여기서는 LLM이 생성한 점수를 전체 학습 데이터에 걸쳐 교사 신호로 사용한다. 하지만 LLM이 모든 상황에서 정확한 순위 정보를 제공한다는 가정은 현실과 맞지 않는다. 특히 콜드 스타트 아이템이나 희소한 사용자 행동 패턴에서는 LLM의 예측이 오히려 노이즈가 될 수 있다. 이러한 전역 증류는 하위 모델이 LLM의 오류를 그대로 학습하게 만들며, 모델의 일반화 능력을 저해한다.이에 대한 해결책으로 제안된 S‑LLMR은 “선택적”이라는 핵심 아이디어를 구현한다. 먼저, 사용자 이력 길이(예: 클릭·구매 기록 수), 아이템 인기(노출·구매 빈도), 그리고 현재 모델의 예측 불확실성(예: 엔트로피 혹은 베이지안 신경망에서 추출한 변동성)이라는 세 가지 메타 정보를 입력으로 하는 작은 신경망 기반 게이팅 모듈을 설계한다. 이 모듈은 학습 과정에서 LLM이 제공한 순위 점수가 실제 정답과 얼마나 일치하는지를 기준으로, 언제 LLM의 신호를 받아들일지를 스스로 학습한다. 즉, LLM이 신뢰할만한 상황—예를 들어, 사용자가 충분한 이력을 가지고 있지 않아 모델 자체가 불확실하거나, 아이템이 장기 미노출 상태인 경우—에만 LLM 기반 쌍(pair) 순위 손실을 적용한다.
핵심적인 효율성은 모든 LLM 점수를 오프라인 배치 처리한다는 점에 있다. 사전에 전체 사용자‑아이템 후보군에 대해 LLM이 생성한 순위 점수를 저장해 두면, 학습 시에는 해당 점수를 조회만 하면 되므로 실시간 추론 비용이 전혀 증가하지 않는다. 이는 대규모 서비스에서 LLM을 활용하면서도 기존 인프라를 그대로 유지할 수 있게 만든다.
실험에서는 MovieLens, Amazon 리뷰, 그리고 뉴스 추천 데이터셋 등 다양한 도메인을 사용하였다. 전체 정확도(NDCG@10, HR@10)에서 기존 전역 증류 기반 방법보다 평균 2.3%p 향상을 달성했으며, 특히 콜드 스타트 사용자(이력 5개 이하)와 롱테일 아이템(인기 상위 10% 이하)에서는 각각 5.8%p, 7.1%p의 큰 개선을 보였다. 이는 게이팅 메커니즘이 LLM의 강점을 정확히 포착하고, 약점이 드러나는 구간에서는 기존 모델에 맡기는 “스위치” 역할을 효과적으로 수행함을 의미한다.
이 논문은 LLM을 무조건적인 교사로 삼는 것이 아니라, 상황에 따라 선택적으로 활용하는 프레임워크를 제시함으로써, 비용 효율성과 성능 향상을 동시에 달성한다는 점에서 의미가 크다. 향후 연구에서는 게이팅 기준을 더욱 풍부한 메타 데이터(예: 사용자 사회적 연결망, 아이템 카테고리 계층)로 확장하거나, 멀티모달 LLM(텍스트·이미지·음성)과 결합해 복합적인 추천 시나리오에 적용하는 방안을 모색할 수 있다.