멀티에이전트 추론을 내재한 고효율 LLM 기반 추천 시스템
초록
본 논문은 대규모 언어 모델(LLM)의 의미적 추론 능력과 협업 필터링 신호를 결합하기 위해, 다중 에이전트 교사 시스템(MARS)을 설계하고, 이를 단일 모델(STAR)로 내재화하는 두 단계 증류 파이프라인을 제안한다. 협업 신호 번역 메커니즘을 통해 그래프 기반 이웃 정보를 자연어 증거로 변환하고, 계획‑실행‑반성 흐름을 시퀀스 형태로 직렬화하여 학생 모델이 도구 호출 시점과 자기 반성을 학습하도록 한다. 실험 결과 STAR는 교사보다 8.7%~39.5% 성능 향상을 보이며, 추론 지연을 크게 감소시킨다.
상세 분석
이 연구는 LLM 기반 추천 시스템이 직면한 두 가지 근본적 한계를 정확히 짚어낸다. 첫째, 기존의 협업 신호를 벡터화해 LLM에 주입하는 방식은 의미적 추론을 희생하고, 결과 해석성을 상실한다. 둘째, 도구‑증강 에이전트를 활용한 접근은 추론 과정을 명시적으로 드러내지만, 다중 턴 대화 구조 때문에 실시간 서비스에 부적합한 높은 지연을 초래한다. 논문은 이러한 문제를 해결하기 위해 ‘협업 신호 번역(Collaborative Signal Translation)’이라는 새로운 인터페이스를 도입한다. 사용자‑아이템 이분 그래프를 구축하고, Item‑CF와 User‑CF 두 종류의 도구를 통해 고차원 협업 관계를 탐색한다. 탐색 결과는 LLM이 자연어 요약으로 변환해 ‘증거(evidence)’ 형태로 저장함으로써, 온라인 추론 시 실시간 그래프 탐색 비용을 제거한다.
교사 시스템(MARS)은 플래너, 여러 실행 에이전트(프로파일, 최근·과거 관심 분석, 다이버전스), 리플렉터, 랭킹 에이전트로 구성된 플랜‑실행‑반성 파이프라인을 갖는다. 플래너는 사용자 요청을 세부 작업으로 분해하고, 각 작업을 최적의 실행 에이전트에 할당한다. 실행 에이전트는 위에서 정의한 협업 신호 번역 도구를 호출해 텍스트 증거를 획득하고, 이를 바탕으로 사용자 선호를 정량·정성적으로 설명한다. 리플렉터는 생성된 중간 결과의 일관성·합리성을 검증하고, 필요 시 수정 지시를 내린다. 최종 랭킹 에이전트는 장기·단기 선호를 균형 있게 고려해 아이템 순위를 산출한다.
이 복잡한 다중 에이전트 상호작용을 ‘trajectory’ 형태로 직렬화하고, 교사의 성공적인 예시만을 필터링해 학습 데이터로 사용한다. 첫 단계인 Supervised Fine‑Tuning(SFT)에서는 학생 모델이 플래너의 작업 분해, 도구 호출 토큰(<tool_call>) 사용, 그리고 구조화된 출력 형식을 모방하도록 학습한다. 두 번째 단계인 Group Relative Policy Optimization(GRPO)에서는 동일 입력에 대해 여러 후보 출력을 샘플링하고, 포맷 준수와 정답 일치도를 결합한 복합 보상 함수를 통해 정책을 강화한다. 이 과정에서 학생 모델은 도구 호출 시점과 자기 반성 로직을 자체적으로 학습하게 된다.
실험에서는 다양한 도메인(도서, 영화, 전자상거래)과 데이터 규모에서 STAR가 교사보다 평균 20% 이상 높은 HR@10, NDCG@20 등을 기록했으며, 추론 지연은 다중 턴 에이전트 대비 5배 이상 감소했다. 또한, 사전 계산된 증거를 활용함으로써 서버 메모리와 저장소 요구량이 크게 낮아졌으며, 실제 서비스 환경에서도 실시간 응답이 가능함을 입증했다. 전반적으로 이 논문은 복잡한 멀티‑에이전트 추론을 단일 LLM에 효율적으로 내재화하는 방법론을 제시함으로써, 의미 기반 추천과 협업 필터링의 장점을 동시에 달성하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기