신경망 기반 일반 도착·리드타임 (s,S) 재고 모델 예측
초록
본 논문은 일반적인 수요 간 간격과 리드타임 분포를 갖는 연속 검토 (s,S) 재고 시스템의 정상 상태 성능 지표를 신경망으로 근사하는 감독학습 프레임워크를 제안한다. 시뮬레이션으로 생성한 라벨 데이터를 이용해 훈련한 후, 낮은 차수의 모멘트만을 입력으로 사용해 재고 수준 분포, 평균 사이클 시간, 손실 판매 확률 등을 실시간에 가깝게 예측한다. 실험 결과는 다양한 파라미터 설정에서도 높은 정확도를 보이며, 반복 시뮬레이션을 대체할 수 있음을 입증한다.
상세 분석
이 연구는 비마코프(Non‑Markovian) 특성을 갖는 (s,S) 재고 모델의 분석 난점을 머신러닝, 특히 심층 신경망(Deep Neural Network, DNN)으로 해결하고자 한다. 전통적인 해석적 접근은 도착 간 간격(D)과 리드타임(L)이 지수분포와 같이 메모리리스(memoryless)인 경우에만 tractable하며, 일반 분포를 허용하면 상태 전이 구조가 복잡해져 폐쇄형 해를 구하기 어렵다. 저자는 이러한 비마코프 시스템을 “시뮬레이션 기반 라벨링 → 신경망 학습 → 즉시 추론”의 3단계 파이프라인으로 전환한다.
첫 번째 단계에서는 PH(Phase‑type) 분포군을 활용해 D와 L의 다양한 형태를 샘플링한다. PH 분포는 모든 비음수 연속 분포를 조밀하게 근사할 수 있다는 이론적 근거(Asmussen, 2003)를 바탕으로, 파라미터 공간를 효율적으로 탐색한다. 샘플링 과정에서 파라미터 간 의존성을 고려한 최신 방법(Baron et al., 2024)을 적용해 분포 다양성을 확보한다.
두 번째 단계에서는 각 샘플에 대해 이산‑이벤트 시뮬레이션을 수행해 정상 상태 재고 수준 분포, 평균 사이클 시간, 손실 판매 확률 등을 정확히 측정한다. 이때 시뮬레이션은 오프라인에서 대규모 병렬 처리로 수행되어 라벨 생성 비용을 최소화한다.
세 번째 단계는 핵심이다. 저자는 D와 L의 첫 n개의 모멘트를 로그 변환 후 입력 피처로 사용한다. 실험에서는 n=5가 최적으로 확인되었으며, 5차 모멘트 이상을 추가해도 성능 향상이 미미함을 보였다. 이는 고차 모멘트가 실제 시스템 동역학에 미치는 영향이 제한적임을 시사한다. 입력 차원을 낮춤으로써 신경망 구조는 비교적 얕은 다층 퍼셉트론(MLP) 혹은 작은 규모의 완전 연결 네트워크로도 충분히 학습된다.
모델 학습은 평균 제곱 오차(MSE)와 교차 엔트로피 손실을 혼합한 다중 목표 손실 함수를 사용해, 연속형 재고 수준 분포와 이산형 손실 판매 확률을 동시에 최적화한다. 검증 단계에서는 Kullback‑Leibler divergence와 평균 절대 오차(MAE) 등 여러 지표를 통해 예측 정확도를 평가한다. 결과적으로, 신경망은 평균 0.2% 이하의 상대 오차와 0.01 이하의 KL divergence을 달성했으며, 시뮬레이션 대비 10⁴ 배 이상의 추론 속도 향상을 보였다.
또한, 저자는 학습된 모델을 이용해 (s,S) 파라미터 최적화를 수행한다. 주어진 비용 구조(보관비, 주문비, 손실비)와 목표 함수(시간당 평균 총비용) 하에, 신경망이 제공하는 정상 상태 지표를 빠르게 평가함으로써 전통적인 시뮬레이션 기반 탐색보다 효율적인 파라미터 탐색이 가능함을 실증한다.
이 논문의 주요 기여는 다음과 같다. (1) 비마코프 재고 시스템에 대한 라벨링‑학습‑추론 파이프라인을 최초로 제시, (2) 낮은 차수 모멘트만으로도 정상 상태 분포를 고정밀도로 재현할 수 있음을 입증, (3) 오픈소스 패키지를 공개해 실무 및 학술 연구에서 바로 활용 가능하도록 함. 한계점으로는 현재 손실 판매가 전부 1단위로 가정된 점, 다품목·다단계 공급망 확장에 대한 추가 검증 필요성 등이 있다. 향후 연구에서는 강화학습과 결합해 동적 (s,S) 정책을 학습하거나, 재고 손실 외에 서비스 수준(예: 백오더) 등을 포함한 다목표 최적화로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기