동적 도구 체인 라우팅을 통한 에이전트 기반 추천 시스템

동적 도구 체인 라우팅을 통한 에이전트 기반 추천 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ChainRec은 LLM 기반 에이전트가 사용자 상황에 맞춰 증거를 선택·수집하고, 최적의 도구 체인을 동적으로 구성해 추천 순위를 생성하도록 설계된 프레임워크이다. 표준화된 도구 라이브러리를 구축하고, 감독 미세조정(SFT)과 선호 최적화(DPO) 두 단계로 플래너를 학습시켜, 특히 콜드 스타트와 관심 전이 상황에서 HR@1/3/5를 크게 향상시킨다.

상세 분석

본 논문은 기존 LLM 기반 추천 시스템이 “고정된 워크플로우”에 의존해 다양한 사용자 상황을 충분히 반영하지 못한다는 점을 지적한다. 이를 해결하기 위해 저자들은 두 가지 핵심 설계를 제안한다. 첫째, 다양한 도메인·시나리오에서 전문가가 만든 CoT(Chain‑of‑Thought) 트레이스를 수집·클러스터링하여, 입력·출력 스키마와 메모리 기록 형식을 통일한 ‘Tool Agent Library(TAL)’를 만든다. TAL은 사용자‑측 증거(예: 프로필, 최근 행동)와 아이템‑측 증거(예: 리뷰, 메타데이터)를 각각 담당하는 여러 도구(예: 사용자 선호 요약, 아이템 리뷰 검색, 속성 추출 등)로 구성된다. 둘째, 플래너라는 정책 네트워크를 두 단계 학습한다. SFT 단계에서는 전문가 트레이스를 모방해 도구 호출 순서와 파라미터 형식을 학습함으로써 기본적인 도구 사용 능력을 확보한다. 이후 DPO 단계에서는 동일 입력에 대해 서로 다른 도구 체인 결과를 비교한 선호 데이터에 기반해, 더 높은 HR을 달성한 체인을 선호하도록 직접적인 쌍별 손실을 최소화한다. 이 과정은 보상 모델을 별도로 학습하지 않아도 되며, 온라인 롤아웃 없이 오프라인 비교만으로 정책을 정교화한다.

MDP 기반 문제 정의에서도 흥미로운 점이 있다. 상태는 (사용자, 후보 아이템, 현재 메모리)로 정의되며, 메모리는 도구 호출 결과만을 포함한다. 즉, 초기에는 거의 정보가 없고, 플래너가 선택한 도구에 따라 점진적으로 증거가 축적된다. 행동 공간은 제한된 K개의 도구와 최종 랭킹 액션으로 구성되고, 각 도구는 사전조건(예: 사용자 히스토리 존재 여부)과 단계 예산(Tmax)으로 제한된다. 보상은 최종 HR과 플래너 사용 단계 수 사이의 가중합(λ)으로 설계돼, 정확도와 비용 사이의 트레이드오프를 명시적으로 제어한다.

실험에서는 AgentRecBench라는 인터랙티브 추천 벤치마크를 활용해 Amazon, Yelp, Goodreads 세 도메인에서 평가한다. 주요 베이스라인으로는 고정된 CoT 프롬프트 기반 에이전트, 전통적인 협업 필터링, 그래프 기반 시퀀스 모델, 그리고 최근 제안된 에이전트형 추천 모델(RecMind, Agent4Rec 등)이 포함된다. 결과는 평균 HR@{1,3,5}에서 모두 2~5%p 상승을 보이며, 특히 콜드 스타트(사용자 히스토리 부족)와 관심 전이(단기 의도와 장기 선호 충돌) 상황에서 플래너가 “사용자‑측 증거 수집”과 “아이템‑측 리뷰 요약”을 적절히 전환함으로써 큰 이득을 얻는 것으로 나타났다.

Ablation 연구에서는 (1) 도구 표준화 없이 원시 API 호출만 사용했을 때 성능 저하, (2) SFT만 적용하고 DPO를 생략했을 때 플래너의 선택 품질이 낮아짐, (3) 단계 예산을 과도하게 제한했을 때 HR 감소 등 각각의 구성 요소가 전체 성능에 미치는 영향을 정량화한다. 또한, t‑SNE 시각화를 통해 동일 프롬프트 하에서도 상황에 따라 서로 다른 CoT 클러스터가 형성되는 현상을 확인, 동적 플래닝의 필요성을 시각적으로 뒷받침한다.

이 논문은 “능력‑우선, 정책‑후속” 접근법을 통해 LLM 에이전트가 복잡한 증거 수집·합성 과정을 구조화하고, 실제 서비스 환경에서 요구되는 비용‑효율적인 의사결정을 학습할 수 있음을 증명한다. 향후 연구에서는 더 풍부한 도구 타입(예: 실시간 API, 사용자 인터랙션)과 멀티‑에피소드 학습, 그리고 사용자 피드백을 통한 온라인 강화학습을 결합해 플래너의 적응성을 더욱 강화할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기