구조적 불확실성을 고려한 작업장 스케줄링 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 작업장 스케줄링에서 경로 선택이 사전에 결정되지 않는 구조적 불확실성을 다룬다. 저자는 비대칭 Actor‑Critic 구조와 사후 재구성된 결정론적 상태를 이용해 크리틱의 가치 추정 정확도를 높이고, 불확실성 인식 모델(UPM)로 정책의 강인성을 강화한다. 실험 결과, 제안 방법이 기존 기법보다 메이크스팬을 크게 감소시킴을 보인다.

상세 분석

이 연구는 전통적인 작업장 스케줄링(JSSP)에서 간과되던 구조적 불확실성, 즉 작업이 여러 가능한 라우팅 경로 중 하나를 따라야 하는 상황을 공식화한다. 기존의 파라미터 불확실성(가공 시간 변동) 중심 접근법은 환경의 확률적 변동을 정책에 직접 연결시키는 방식으로, 크리틱이 평균적인 보상을 학습하면서 실제 행동의 품질과 무관한 높은 분산을 초래한다. 저자는 이러한 “크레딧 할당 오류”를 해결하기 위해 비대칭 Actor‑Critic(AA‑C) 아키텍처를 제안한다. 구체적으로, Actor는 전통적인 확률적 상태(sₛₜₒ)만을 관찰해 정책 πθ(a|sₛₜₒ)를 학습하고, 에피소드 종료 후 실제 발생한 경로 정보를 이용해 결정론적 상태(s_det)를 재구성한다. 이 결정론적 상태는 모든 작업의 라우팅이 고정된 형태이므로, 크리틱 Vϕ(s_det)는 환경 불확실성에 의해 왜곡되지 않은 정확한 가치 함수를 학습할 수 있다. 결과적으로, Advantage A(sₛₜₒ,a)=r+γVϕ(s_det′)−Vϕ(s_det) 가 낮은 분산을 갖게 되어 정책 업데이트가 안정화된다.

또한, 저자는 Uncertainty Perception Model(UPM)을 도입해 전체 DAG 구조에서 전역적인 불확실성 정도를 추정하고, 이를 attention 메커니즘을 통해 Actor의 입력에 통합한다. UPM은 각 작업의 전이 확률 P(o′|o)와 현재 남은 작업량을 고려해 “불확실성 벡터”를 생성하고, 이는 정책 네트워크가 미래 경로 변동성을 사전에 인식하도록 돕는다.

실험 설계는 표준 JSSP 벤치마크에 구조적 불확실성을 인위적으로 삽입한 인스턴스와 실제 산업 데이터(실리콘 웨이퍼 제조, 생물 샘플 테스트) 두 종류를 포함한다. 비교 대상은 기존 Actor‑Critic 기반 DRL, GNN‑기반 휴리스틱, 그리고 파라미터 불확실성 전용 모델이다. 결과는 메이크스팬 감소율이 평균 12%~18%에 달하며, 특히 불확실성이 높은 인스턴스에서 기존 방법 대비 25% 이상의 개선을 보였다. 또한, 학습 곡선이 더 빠르게 수렴하고, 정책의 변동성 지표(표준편차)도 크게 낮아졌음이 보고된다.

이 논문의 핵심 기여는 (1) 구조적 불확실성을 명시적으로 모델링한 JSSP 정의, (2) 사후 재구성을 통한 비대칭 가치 학습 메커니즘, (3) 전역 불확실성 인식을 위한 UPM 설계이며, (4) 실험을 통한 실용적 우수성 입증이다. 한계점으로는 결정론적 상태 재구성 과정이 에피소드 종료 후에만 가능하므로 온라인 실시간 제어에는 추가적인 지연이 발생할 수 있다는 점이다. 향후 연구에서는 온라인 힌트 추정과 멀티에이전트 협업을 결합한 확장 모델이 제안될 수 있다.

구조적 불확실성을 고려한 작업장 스케줄링 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기