온라인 3D 적재 최적화: 선행 물품과 MCTS 기반 예측 제어
초록
본 논문은 물류 현장에서 로봇 팔을 이용한 온라인 3차원 적재 문제에, 짧은 시간 안에 도착하는 물품들의 선행 정보를 활용하는 새로운 모델 예측 제어(MPC) 프레임워크를 제안한다. Monte Carlo Tree Search에 동적 탐색 사전과 공간 낭비를 억제하는 보조 보상을 결합해, 배포 환경에서 10 % 이상의 성능 향상과 평균 4 % 개선을 달성하였다.
상세 분석
이 연구는 온라인 3D‑Bin‑Packing(3D‑BP) 문제를 기존 DRL 기반 정책이 직면하는 단기 분포 변동(short‑term distribution shift) 문제와 연결시킨다. 물류 센터에서는 트럭이 순차적으로 도착하면서 서로 다른 창고에서 온 물품이 연속적으로 들어오는데, 이때 발생하는 비정상적인 크기·형태 분포는 사전에 학습된 정책의 성능을 급격히 저하시킨다. 저자들은 이러한 현상을 “선행(parcels) 큐”라는 형태로 모델링하고, 현재 배치할 물품뿐 아니라 앞으로 N‑1개의 물품 정보를 미리 알 수 있다는 점을 활용한다.
핵심 아이디어는 이 선행 정보를 활용해 매 순간 제한된 수평선(horizon) 내에서 최적의 배치 시퀀스를 탐색하는 MPC 문제로 전환하는 것이다. 여기서 목표 함수는 현재부터 N‑1 단계까지의 즉시 보상(부피 활용도)과 마지막 단계에서의 가치 함수 Vθ(offline‑trained critic)를 합산한 형태이며, 할인 계수 γ=1을 사용해 전체 배치가 종료될 때까지의 총 보상을 최대화한다.
MPC를 직접 풀기엔 상태·행동 공간이 급격히 폭발하므로, 저자들은 Monte Carlo Tree Search(MCTS)를 도입한다. 기존 AlphaZero‑계열 PUCT 알고리즘은 정책 네트워크가 제공하는 사전 확률 Pπ(s,a)에 크게 의존한다. 그러나 선행 큐가 훈련 데이터와 크게 다를 경우, 이 사전은 오히려 탐색을 오도한다. 이를 해결하기 위해 “Shift‑Aware Polynomial Upper Confidence Trees”를 설계했으며, 사전 확률을 동적으로 보정한다.
보정식 P_SA(a|s)=α(s)·Pπ(s,a)+(1−α(s))·1/|A_s|에서 α(s)∈
댓글 및 학술 토론
Loading comments...
의견 남기기