리테일벤치: 장기 자율 의사결정과 전략 안정성 평가

본 논문은 “LLM 기반 에이전트가 장기적인 자율 의사결정과 전략 안정성을 실제 소매 환경에서 얼마나 유지할 수 있는가”라는 근본적인 질문에 답하고자 한다. 이를 위해 저자들은 RetailBench라는 고충실도 시뮬레이션 벤치마크를 설계하였다. RetailBench는 슈퍼마켓 운영을 MDP(마코프 의사결정 과정)로 모델링하고, 하루를 여러 intra‑day 단계로 나누어 가격 설정, 재고 보충, 정보 조회, 메모리 조작, 일일 종료와 같은 행동을 순차적으로 수행하도록 설계했다. 상태공간은 제품·재고·공급망·수요·외부 뉴스·재무 등 6개의 서브스페이스로 구성돼, 각 서브스페이스가 확률적으로 변동하면서 에이전트가 복합적인 정보를 통합해야 함을 강제한다. 특히, 외부 뉴스와 공급자 가격‑품질 관계를 동적으로 생성해, 비정형 요인에 대한 적응력을 테스트한다. 에이전트가 하루를 마치면 고객 트래픽 샘플링, 매출 실현, 리뷰·반품 생성, 재고 업데이트, 재무·외부 상태 갱신 순서로 전이가 일어나며, 이는 실제 소매점의 일일 운영 사이클을 정밀히 재현한다. 에피소드는 매일 임대료를 5일 연속 납부하지 못하면 종료되며, 최대 1,000일 이상의 장기 시뮬레이션이 가능하도록 설계되었다. 핵심 기여는 “Evolving Strategy & Execution” 프레임워크이다. 기존 ReAct, Reflection, Plan‑and‑Act 등은 전략과 실행을 동일 시점에 혼합하거나, 전략을 과도하게 빈번히 수정해 장기 목표가 흐려지는 문제를 보였다. 제안 프레임워크는 전략을 하루 단위로만 재검토하고, 일일 실행 단계에서는 전략을 고정시켜 행동을 생성한다. 전략은 세 단계로 계층화된다: (1) Macro Strategy – 장기 목표와 KPI, (2) Execution Strategy – 중간 표현으로서 LLM이 이해하고 변환할 수 있는 구조, (3) Daily Actions – 구체적인 가격, 주문, 쿼리 명령. 이러한 구조는 전략의 명시성과 해석 가능성을 높이며, 전략 드리프트를 억제한다. 실험에서는 최신 8개 LLM(Qwen‑235B, Kimi‑K2, GLM‑4.6, DeepSeek‑V3.2, Gemini‑3‑Flash, Grok‑4.1, GPT‑5‑Mini, GPT‑5.2)을 대상으로, 네 가지 에이전트 프레임워크(제안, 일별 Reflection, 단계별 Reflection, Plan‑and‑Act)와 세 가지 난이도(Easy, Middle, Hard) 환경에서 각각 3번씩 롤아웃을 수행했다. 평가지표는 운영 일수, 최대 일수, 일일 평균 매출·수익, 유통기한 초과 비율, 반품 비율이다. 결과는 다음과 같다. 제안 프레임워크는 모든 모델에서 일일 매출·수익을 평균 5~15% 향상시키고, 유통기한 초과와 반품 비율을 30~70% 감소시켰다. 특히 GPT‑5.2와 같은 대형 모델은 Hard 환경에서도 비교적 오래 버텨냈으며, 일별 Reflection보다 평균 10일 이상 더 오래 운영했다. 그러나 모든 모델이 난이도가 상승함에 따라 성능이 급격히 저하되었으며, 손으로 만든 휴리스틱 정책(내부 상태 전면 접근 가능)과는 여전히 큰 격차가 있었다. 이는 현재 LLM 기반 에이전트가 복합적인 장기 의사결정에 필요한 지속적인 기억·전략 유지 능력이 부족함을 시사한다. 논문의 한계로는 시뮬레이션이 실제 물류·인력 제약을 완전히 반영하지 못함, 프롬프트 길이와 토큰 비용 제한으로 인해 수천 일 규모의 장기 기억을 효율적으로 관리하기 어려움, 외부 뉴스 생성이 규칙 기반이라 현실적인 변동성을 완전 재현하지 못함을 들 수 있다. 향후 연구는 실제 POS 데이터와 연계한 하이브리드 벤치마크, 외부 지식베이스·벡터 데이터베이스를 활용한 장기 메모리 설계, 그리고 강화학습과 결합한 전략 진화 메커니즘 개발을 제안한다. 요약하면, RetailBench는 LLM 기반 에이전트의 장기 자율성 평가를 위한 최초의 고충실도 소매 시뮬레이션이며, “Evolving Strategy & Execution” 프레임워크는 전략·실행을 명확히 구분함으로써 기존 방법보다 안정성과 효율성을 크게 개선한다. 그러나 현재 LLM의 한계가 여전히 존재함을 실험적으로 입증했으며, 향후 연구 방향을 제시한다.

리테일벤치: 장기 자율 의사결정과 전략 안정성 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기