- Title: Ask, Clarify, Optimize Human-LLM Agent Collaboration for Smarter Inventory Control
재고 관리는 전문 지식이 부족한 많은 중소기업들에게 여전히 도전 과제입니다. 본 논문은 Large Language Models (LLMs)가 이 격차를 좁힐 수 있는지 조사하였습니다. LLMs을 직접적인 종단 종단 해결자로 활용하면 '환영세'라는 성능 간극이 발생함을 보였습니다. 여기서 '환영세'는 모델이 기반 확률적 추론을 수행하지 못함으로 인한 성능 차이를 말합니다. 이를 해결하기 위해 우리는 의미적 추론과 수학적 계산을 엄격히 분리하는 하이브리드 에이전시 프레임워크를 제안하였습니다. 이 구조에서 LLM은 지능적인 인터페이스로 작용하여 자연어로부터 매개변수를 발췌하고 결과를 해석하며, 철저한 알고리즘을 자동으로 호출하여 최적화 엔진을 구축합니다.
이 상호작용 시스템을 실제 관리자 대화의 모호성과 일관되지 않은 부분에 대해 평가하기 위해 우리는 Human Imitator라는 유계 합리적인 매니저의 ‘디지털 트윈’ 형태의 조정된 버전을 도입하였습니다. 이는 규모가 크고 재현 가능한 스트레스 테스트를 가능하게 합니다. 우리의 경험적 분석은 하이브리드 에이전시 프레임워크가 GPT-4o를 종단 종단 해결자로 사용하는 상호작용 기준치에 비해 총 재고 비용을 32.1% 감소시키는 것을 보여주었습니다. 또한, 완벽한 기본 진실 정보만 제공한다고 해서 GPT-4o의 성능이 향상되는 것은 아니라는 점을 발견하였습니다. 이로써 병목 현상은 근본적으로 계산적인 문제가 아니라 정보적 문제는 아님을 확인할 수 있었습니다. 우리의 결과는 LLMs가 운영 연구를 대체하는 것이 아니라, 엄격한 해결자 기반 정책에 접근 가능하게 만드는 자연어 인터페이스로서의 위치를 제시합니다.
1. **성능 측정**: 하이브리드 에이전트 시스템은 GPT-4o를 사용한 기준 대비 32.1%의 정책 비용을 줄입니다. 이는 언어 모델 기반 추론이 아닌 확립된 최적화 방법에 의존하지 않을 때 발생하는 효율성 손실을 나타냅니다.
# 소개
경영과학에서 반복적으로 발생하는 긴장은 규범적 최적성—정형 모델이 제시하는 결정—and 기술적 현실—시간 압박, 불완전한 데이터 및 제한적인 분석 지원 하에 실무자가 실제로 내리는 결정 사이의 긴장이다. 재고 관리는 이 긴장을 선명하게 만든다. 운영 연구는 확률론적 재고 제어를 위한 성숙한 도구 키트를 제공한다. 여기에는 고전적인 기본 재고 정책과 $`(s,S)`$ 정책이 포함되며, 이들은 스타일라이즈된 가정 하에서 엄격한 최적성 보장을 제공한다 (예: ). 또한 현대의 근사 동적 프로그래밍 및 심층 강화 학습(DRL) 방법을 통해 더 복잡한 환경에 적용할 수 있다. 원칙적으로 이러한 방법들은 총 비용(보유 비용, 주문 비용 및 부족 비용)을 줄이고 서비스 수준을 향상시킬 수 있다. 그러나 실제 상황에서는 많은 중소etailers가 이를 배치하지 않는다.
전문 분석가나 데이터 인프라가 없는 관리자들은 종종 “보기가 낮을 때 주문”, “공휴일 전에 두 배로 늘린다”, “케이스 팩 단위로 맞춘다"와 같은 비정형 규칙들을 사용한다. 이러한 방법은 적용하기 쉽지만 수요 불확실성, 공급 시간 변동성 또는 비용 상충을 고려하지 못한다.
이는 주로 최적 정책이 너무 어렵기 때문이 아니라 표준 최적화 도구가 일반인에게 접근하기 어려워서 발생하는 간극이다. 문제 형식의 복잡성이 주요한 과제다. 기본적인 재고 모델조차도 혼란스러운 운영 환경을 정확한 입력으로 번역해야 한다: 재고 부족이 무엇인지(미판매 vs. 백오피스), 공급 시간은 어떻게 작동하는지(확정적 vs 확률론적, 공급 중단 포함), 검토 주기는 무엇인지, 어떤 제약 조건이 바인딩되는지(현금, 저장 공간, 최소 주문 수량, 케이스 팩 반올림, 배송 일정) 및 어떤 목표를 사용할 수 있는지(서비스 수준 목표, 벌금 비용, 충족률). 이 정보는 깨끗한 테이블에 저장되어 있지 않다—이는 인간의 기억과 비공식 언어에서 존재한다. 이것은 해석적 장벽을 보여줍니다: 질적인 사업 이야기를 구조화되고 모델 일관성 있는 사양으로 변환하고, 그 후 관리자가 실행하고 신뢰할 수 있는 운영 루틴으로 다시 변환하는 것.
최근 대형 언어 모델(LLMs)의 발전은 이러한 병목 현상을 줄이는 매력적인 기회를 제공하지만, 약간의 함정도 제시한다. 자연어로 사업을 설명하고 “무엇을 주문해야 하나요?“라고 물어볼 수 있는 LLM을 직접 호출하는 것이 첫 번째 아이디어다. 이는 종종 유창하고 자신감 넘치는 권고를 제공하지만, 유창함은 정확함과 같지 않다. 재고 제어는 작은 구조적 오류—공급 시간 잘못 해석, 미판매와 백오피스 혼동, 불확실성 처리 부족, 용량이나 서비스 제약 무시 등이 누적되어 지속적인 비용으로 이어지는 확률론적 제어 문제다. 더욱이 LLMs는 성능을 보장하거나 Bellman 최적성을 준수하거나 교정된 확률 추론을 제공하도록 설계되지 않았다. 결과적으로, 직접 LLM 호출은 정책이 가능성은 있지만 체계적으로 하위최적 또는 심지어 내부 일관성이 없는 경우를 생성할 수 있다.
따라서 본 논문의 핵심 통찰력은 LLMs가 운영 연구를 대체하는 것이 아니라 더 지능적으로 사용될 수 있다는 점이다: 정교한 최적화를 사용 가능한 방식으로 만드는 인터페이스 및 조정자로 활용. 우리는 세 가지 역할을 명시적으로 분리하는 하이브리드 에이전트 의사결정 지원 프레임워크를 제안한다: (i) 정보 추출 에이전트가 사용자를 참여시키고, 부족한 정보를 표면화하며, 정교한 후속 질문을 통해 모호함을 해소하고; (ii) 최적화 에이전트가 구조화된 사양을 받고 $`(s,S)`$-스타일 방법과 적절한 DRL을 포함하는 확립된 운영 연구 알고리즘을 사용하여 정책을 계산하며; (iii) 정책 해석 에이전트가 계산된 정책을 다시 운영 지침으로 번역하고, 가정을 설명하며, 제시된 제약 조건에 대한 타당성을 확인하고, 사용자의 언어로 액션 가능 요약을 제공한다.
이 분리는 단순히 엔지니어링 선택이 아니라 인식론적 선택이다. 그것은 언어 모델을 추출, 구조화 및 번역 도구로 취급하며 정책 계산은 검증, 스트레스 테스트 및 기존 이론으로 개선할 수 있는 방법에 보류한다. 이 설계는 의사결정 지원의 “마지막 마일” 문제를 명확하게 한다. 강력한 알고리즘이 이미 존재하는 경우 인터페이스의 정밀도가 종종 제약 조건이다: 솔버가 필요로 하는 문제 사례를 어떻게 효과적으로 발굴하고 안정화하며 형식화할 수 있는지. 우리의 프레임워크에서 LLM은 합리성 보조 장치—입력을 청결하게 만들고 가정을 명시하며 비즈니스 이야기를 모델 구조와 일치시키는 전면 부품—이며 최적화 백엔드는 효율성의 엔진이다. 우리는 통합형 AI 솔버 대신 LLMs이 사용자가 접근할 수 없었던 관리 과학의 엄밀함을 풀어내는 이중 엔진 접근 방식을 주장한다.
그러나 이러한 이중 엔진 아키텍처를 철저하게 평가하려면 방법론적 도전이 있다. 상호 작용형 의사결정 지원 시스템은 실제 사용자 입력이 잡음이 많고 일관성이 없으며 반복적으로 수집하기에 비싸기 때문에 대규모로 평가하기 어렵다. 정적인 벤치마크는 중심적인 어려움을 놓친다: 에이전트는 누락된 매개변수를 요청하고 모순을 처리하며 대화를 통해 잘 포즈된 모델에 수렴해야 한다. 제어되고 재현 가능한 평가를 가능하게 하기 위해, 우리는 Human Imitator를 도입한다: 실제 인간-머신 대화에서 100개 이상의 데이터 세트로 미세 조정된 언어 모델이다. Human Imitator는 경계 합리적인 소기업 주인이 디지털 트윈으로 작용하며, 실제 관리자 입력의 애매함, 불완전성 및 때때로 일관성이 없는 특성을 재현한다. 이는 대규모 인간 실험의 물류적 및 금융적 부담 없이 상호 작용 시스템을 체계적으로 스트레스 테스트할 수 있게 한다.
주요 기여
우리 연구는 확률론적 재고 제어를 위한 LLM 기반 의사결정 지원 설계 및 평가에 대해 네 가지 주요 기여를 제공한다.
성능 측정:
하이브리드 에이전트 시스템은 GPT-4o를 상호 작용형 엔드투엔드 솔버로 사용한 기준 대비 정책 비용을 32.1% 줄인다. 이 간극은 언어 모델 추론에 의존하는 정책 계산이 확립된 확률론적 최적화보다 효율성 손실을 초래한다는 구체적인 추정치를 제공한다.
성능의 원인:
우리는 성능을 분해하여 에이전트 지원이 가장 높은 마진 가치를 제공하는 특정 상황을 식별한다. 우리의 분석은 프레임워크가 분포에 무관하다(수요 모양에 대해 강건함)는 것을 드러내지만, 복잡성 및 경제적 리스크와 함께 그 이점이 확대된다는 것을 확인한다. 긴 공급 시간과 높은 벌금, 높은 유연성을 가진 상황에서 성능 간극은 크게 증가한다. 이를 관찰한 “복잡성 프리미엄"은 정확하지 않은 휴리스틱의 재무적 결과가 가장 심각한 곳에서 해결자 지원 아키텍처가 초과 수익을 제공한다는 것을 확인한다.
프롬프트 기반 추론의 한계:
우리는 LLMs의 결정 오류의 원인을 구분하기 위해 상호 작용형 엔드투엔드 GPT-4o 기준을 “완벽 정보” 카운터팩트와 비교한다. 놀랍게도, GPT-4o에 지상 진실 매개변수를 제공하면 통계적으로 개선이 없다. 이것은 하드한 “인지 천장”: LLMs의 성능 병목 현상은 정보적(데이터 추출)이 아니라 본질적으로 계산적이라는 것을 확인한다. 이는 프롬프트 공학이 확률론적 최적성으로 가는 간극을 다리 건너지 못함을 확인하며, LLMs는 엄격한 솔버를 조율하는 아키텍처에 더 잘 작동한다.
행동 시뮬레이션을 통한 상호 작용 벤치마크:
방법론적으로 우리는 인터랙티브 벤치마크의 부족을 해결하기 위해 경계 합리적인 관리자에 대한 스케일러블 프록시로 Human Imitator를 설정한다. 실제 입력의 일관성과 모호성을 재현함으로써 이 접근 방식은 정적 데이터세트를 넘어서 의사결정 지원 시스템을 인류-머신 상호작용의 현실적인 마찰에 대한 스트레스 테스트로 허용한다. 재고 관리 외에도 우리의 스케일러블 평가 파이프라인은 다른 운영 도메인에서 LLM 기반 의사결정 지원 도구를 평가하기 위한 일반적인 템플릿을 제공한다.
전체적으로 이러한 발견들은 생성 AI의 진정한 잠재력이 전문 지식을 민주화하는 데 있다는 것을 시사한다. 기존 분석 도구 위에 지능형 조율 층으로 작용함으로써 LLMs은 오랫동안 배제되었던 중소기업 주인들에게 관리 과학의 힘을 최종적으로 해방시킨다.
관련 연구
우리의 작업은 세 가지 서로 다른 문헌 스트림의 교차점에 위치한다: 확률론적 재고 제어(특히 심층 강화 학습 접근법), 대형 언어 모델(LLMs)을 최적화에 적용, 그리고 사용자 시뮬레이션을 통한 상호 작용형 대화 시스템 평가.
확률론적 재고 제어와 심층 강화 학습
재고 관리의 이론적 기초는 성숙해 있으며 단일 에코elon 시스템에 대한 선형 비용과 효율적인 계산을 위한 $(s, S)$ 정책의 최적성을 중심으로 이루어져 있다. 자세한 내용은 교과서를 참조할 수 있다. 그러나 실제 복잡성—공급 시간 변동성, 미판매, 다중 에코elon 네트워크 등이 동일한 동적 프로그래밍을 불가능하게 만든다. 이러한 고차원 상태 공간에 대응하기 위해 최근 연구는 심층 강화 학습(DRL)으로 방향을 바꾸었다. DRL은 깊은 신경망과 결합되어 재고 제어의 본질적인 고차원 상태와 행동 공간을 효과적으로 처리하여 차원 저주를 완화한다. 초기 연구는 RL이 재고 관리에 사용될 수 있음을 입증했다. 예를 들어, 맥주 배포 게임이라는 널리 연구된 공급망 시뮬레이션에서 Deep Q-Network(DQN)을 이용하였다. 유사하게 A3C 알고리즘을 활용하여 휴리스틱 수준의 성능을 달성했으며, 여러 DRL 방법론(A3C, PPO 및 vanilla 정책 그래디언트(VPG))를 재고 문제에 대해 벤치마킹하였다. 최근 연구는 다양한 재고 제어 시나리오로 DRL을 확장하였는데, 비정상적인 불확실한 수요 관리, 다중 제품 시스템 최적화, 다양한 제품 유형 처리 등이 포함된다. DRL은 또한 복잡한 공급망 구조에도 적용되었으며, 다중 에코elon 시스템, 하나의 창고와 여러 소매점 네트워크, 확률론적인 용량 제약 총 생산 계획 문제에 사용되었다.
이러한 알고리즘적 진전에도 불구하고 배포 간극은 여전히 존재한다. 이러한 방법들은 평균 소기업 관리자가 접근하기 어려운 형식적인 수학적 모델링과 하이퍼파라미터 튜닝을 필요로 한다. 우리의 연구는 새로운 DRL 알고리즘을 발명하려는 것이 아니라 이미 존재하는 강력한 솔버(“최적화 에이전트”)를 활용하고 일반인이 사용할 수 있도록 하는 인터페이스에 초점을 맞추고 있다.
LLMs for Optimization and Decision Support
대형 언어 모델(LLMs)의 등장은 자동 의사결정을 위한 관심을 크게 불러일으켰다. LLM들은 이제 비즈니스 및 운영 관리 분야에서 프로세스 최적화, 효율성 향상, 혁신 촉진을 위해 유연한 의사결정 지원 도구로 점점 더 많이 활용되고 있다. 공급망 관리에서는 특히 LLM들이 수요 예측 및 물류 최적화와 같은 작업에 사용되며, 최근 연구는 자연어 기술에서 최적화 문제와 동적 프로그래밍 문제를 자동으로 정형화하는 능력에 대한 관심을 집중시켰다. 의료 분야에서는 LLM들이 환자 정보를 신속하게 종합하고 가능한 진단을 생성하며 치료 계획을 제안하여 임상 의사결정 지원을 강화하는데 뛰어난 가능성을 보여주고 있다. 금융 부문에서도 LLM들은 시장 분석부터 위험 관리까지 다양한 용도로 사용되며, FinGPT와 BloombergGPT와 같은 전문화된 모델은 세부적인 감성 분석, 자동 보고서 생성 및 향상된 알고리즘 거래 전략을 가능하게 한다.
우리는 이러한 방향성을 진전시키기 위해 입력의 애매함에 대처한다. 기존 프레임워크는 일반적으로 사용자가 완전한 문제 설명을 제공한다고 가정한다. 반면, 우리의 정보 추출 에이전트는 사용자가 경계 합리적이고 초기에는 잘 포즈되지 않은 문제를 가지고 있으며, 솔버가 호출되기 전에 필요한 매개변수(예: 백오피스와 미판매 구분)를 발굴하기 위해 반복적인 대화가 필요하다는 가정을 한다. 이 설계는 내부 분석 인력을 갖추지 못한 중소기업에게도 복잡한 재고 상황에 대한 비즈니스 결정을 지원하는 데 적합하다.
생성 에이전트와 사용자 시뮬레이션
상호 작용형 의사결정 지원 시스템을 평가하는 것은 방법론적 딜레마를 제기한다. 정적인 데이터셋(예: 표준 NLP 벤치마크)은 문제 형식의 멀티턴 동적성을 포착하지 못하고, 인간 주제 실험은 자원 집약적이며 재현하기 어렵다. 이를 해결하기 위해 우리는 대화 시스템에서 사용자 시뮬레이션의 풍부한 역사와 최근 생성 에이전트의 등장을 활용한다.
사용자 시뮬레이터는 특히 강화 학습(RL) 에이전트를 교육하는 데 오랫동안 주요 구성 요소였다. 초기 접근 방식은 애그린다 기반 메커니즘에 의존했다. 여기서 시뮬레이터는 엄격한 목표 스택(“비행기 예약”, “시간 지정”)을 따랐다. 슬롯 필링 작업에는 효과적이었지만 이러한 규칙 기반 시스템은 실제 사용자의 언어적 다양성을 결여했다. 이후 이 분야는 데이터 주도적인 접근 방식으로 전환하여 시퀀스-투-시퀀스 모델을 이용해 코퍼스에서 직접 사용자 행동을 학습하였다. 그러나 이러한 모델들은 종종 응답 붕괴로 곤란을 겪었다. 제네릭하거나 반복적인 답변이 발생하며 시스템에 도전하지 못했다. 대형 언어 모델의 등장은 “생성 에이전트"를 가능하게 하여 일관된 인물과 기억을 유지하는 것이 혁명을 가져왔습니다. LLMs는 모래상자 환경에서 신뢰할 수 있는 사회적 상호작용을 시뮬레이션할 수 있음을 보여주었습니다. 작업 지향 대화의 맥락에서는 LLMs가 전통적인 모델보다 우수한 제로샷 사용자 시뮬레이터로 작동할 수 있음이 입증되었습니다. 우리의 연구에서 특히 중요한 점은 인간의 결함을 시뮬레이션하는 것입니다. 특정 인구 통계학적 특성을 및
[Title_Easy_KO]: 언어 모델과 최적화: 재고 관리 혁신
[Title_Easy_EN]: LLMs and Optimization: Innovating Inventory Management