LLM 기반 다중 에이전트로 재고 관리 혁신: 구조화 프롬프트와 기억 기반 적응

LLM 기반 다중 에이전트로 재고 관리 혁신: 구조화 프롬프트와 기억 기반 적응
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 활용한 다중 에이전트 시스템(MAS)이 공급망의 재고 관리에 어떻게 적용될 수 있는지를 탐구한다. 고정된 주문 전략 프롬프트와 안전재고 전략을 결합한 기본 MAS가 제한된 상황에서 최적 주문 정책을 도출함을 확인하고, 과거 유사 상황을 검색·활용하는 기억 모듈을 갖춘 AIM‑RM 에이전트를 제안해 다양한 시나리오에서 성능을 크게 향상시켰다.

상세 분석

이 연구는 다계층 공급망을 다중‑이케이전 재고 관리 문제로 모델링하고, 각 계층을 독립적인 LLM 기반 에이전트로 구현한다. 에이전트는 매 기간(재고 보충 → 주문·수요 관찰 → 생산·출하 → 손익 계산)의 네 단계에 따라 행동하며, 상태 sₘ,ₜ는 재고량, 백로그, 과거 수요·출하 정보를 포함하는 4+2Lₘ 차원 벡터로 정의된다. 초기 실험에서는 “고정‑주문 전략 프롬프트”(P_DM)와 단계별 절차 서술(P_SD), 안전재고 공식(P_SS)을 삽입한 프롬프트만으로도 제한된 파라미터 설정(예: 일정한 수요 분포, 고정 리드타임)에서 최적 베이스‑스톡 정책을 재현한다. 그러나 다른 수요 변동성이나 리드타임 변화가 가미되면 성능이 급격히 저하되는 한계가 드러났다. 이를 극복하기 위해 제안된 AIM‑RM은 두 개의 핵심 모듈을 갖는다. 첫 번째는 과거 에피소드(상태 s, 주문 O, 손익 P)를 벡터 데이터베이스에 저장하는 기억 모듈이며, 두 번째는 현재 상태와 유사한 K개의 과거 사례를 Euclidean 거리 기반으로 검색해 프롬프트에 삽입하는 메모리 사용 프롬프트(P_MU)이다. 검색된 사례는 LLM에게 “유사 상황에서 어떤 주문을 했는가”를 명시적으로 제공함으로써, LLM이 기존 정책을 그대로 복제하거나 상황에 맞게 조정하도록 유도한다. 실험에서는 3‑계층·5‑계층 구조, 다양한 수요 분포(정규, 포아송, 급증)와 리드타임 변동을 포함한 12가지 시나리오를 구축했으며, AIM‑RM은 기존 베이스‑스톡, 강화학습(CTDE) 및 단순 LLM‑MAS 대비 평균 비용 절감율 12%~27%를 기록했다. 특히, 메모리 검색 임계값과 K값을 적절히 조정하면 과적합 없이 일반화 성능을 유지할 수 있음을 확인했다.


댓글 및 학술 토론

Loading comments...

의견 남기기