그래프 기반 딥 강화학습을 활용한 다목표 이기종 병렬 기계 스케줄링

그래프 기반 딥 강화학습을 활용한 다목표 이기종 병렬 기계 스케줄링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 릴리즈 날짜, 시퀀스‑의존 설정시간, 기계 적격성 제약을 포함한 이기종 병렬 기계 스케줄링 문제(UPMSP)를 대상으로, Proximal Policy Optimization(PPO)과 이종 그래프 신경망(GNN)을 결합한 딥 강화학습 프레임워크를 제안한다. 다중 목표 보상 함수로 총 가중 지연시간(TWT)과 총 설정시간(TST)을 동시에 최소화하도록 학습시켰으며, 벤치마크 인스턴스에서 기존 휴리스틱 및 메타휴리스틱보다 우수한 트레이드오프 성능을 보였다.

상세 분석

이 논문은 제조 현장에서 흔히 나타나는 이기종 병렬 기계 스케줄링 문제(UPMSP)를 다목표 최적화 관점에서 재해석한다. 기존 연구들은 주로 단일 목표(예: makespan, TWT) 혹은 간단한 휴리스틱에 의존했으며, 시퀀스‑의존 설정시간과 기계 적격성 같은 복합 제약을 동시에 다루기 어려웠다. 저자들은 이러한 한계를 극복하기 위해 두 가지 핵심 기술을 결합한다. 첫째, 상태 표현을 그래프 형태로 모델링한다. 작업, 기계, 그리고 초기/전이 설정 상태를 각각 노드 유형으로 정의하고, 작업‑기계 할당, 설정 전이, 적격성 등을 나타내는 다양한 엣지 타입을 도입한다. 이 이종 그래프는 메시지 패싱을 통해 각 노드가 주변 정보를 효율적으로 집계하도록 설계된 GNN에 입력된다. GNN은 가변 크기의 인스턴스와 복잡한 관계(예: 특정 기계에서만 가능한 작업, 작업 순서에 따른 설정시간 차이)를 고차원 임베딩으로 압축한다. 둘째, 강화학습 알고리즘으로 PPO를 선택했다. PPO는 클리핑 기법을 통해 정책 업데이트의 급격한 변동을 억제함으로써 학습 안정성을 확보하고, 대규모 연속·이산 행동 공간에서도 샘플 효율성을 유지한다. 여기서는 매 시점 “어떤 작업을 어떤 기계에 할당할지”를 직접 선택하는 정책을 학습한다. 다목표 보상 함수는 TWT와 TST를 가중합 형태로 구성했으며, 가중치는 사전 실험을 통해 Pareto 전선을 탐색하도록 조정되었다. 보상 설계 시 지연시간에 대한 가중치는 작업의 중요도(weight)를 반영하고, 설정시간은 전체 스케줄의 전환 비용을 직접 penalize한다. 실험에서는 50200개의 작업, 510대의 기계를 갖는 다양한 인스턴스를 생성하고, 기존의 Apparent Tardiness Cost with Setups (ATCS)와 Tabu Search 기반 메타휴리스틱을 비교 대상으로 삼았다. 결과는 PPO‑GNN 에이전트가 평균적으로 TWT와 TST 모두에서 10~25% 개선을 달성했으며, 특히 설정시간 감소에 있어 메타휴리스틱보다 현저히 높은 효율성을 보였다. 또한 학습된 정책은 새로운 인스턴스에 대해 빠른 추론 속도를 제공해 실시간 스케줄링에 적합함을 입증했다. 한계점으로는 보상 가중치 선택에 일정 정도의 도메인 지식이 필요하고, 매우 큰 규모(수천 작업)에서는 그래프 전파 비용이 증가한다는 점을 언급한다. 향후 연구에서는 가중치 자동 튜닝, 그래프 샘플링 최적화, 그리고 다중 에이전트 협업 구조를 탐색할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기