대규모 자원 투자 문제를 위한 강화학습 기반 연속 최적화 프레임워크 iScheduler

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
iScheduler는 선후 관계가 있는 작업들을 공유 재생 가능 자원 위에서 스케줄링하는 대규모 Resource Investment Problem(RIP)을 해결하기 위해, 작업을 “프로세스” 단위로 분할하고, 프로세스 선택을 강화학습(MDP)으로 모델링한다. 학습된 정책은 자원 사용량과 시간 창 겹침을 고려해 다음에 스케줄링할 프로세스를 결정하고, 각 프로세스는 독립적인 서브문제로 풀어낸다. 파라미터 변화가 발생하면 기존에 확정된 프로세스는 그대로 유지하고, 영향을 받은 프로세스만 재스케줄링함으로써 재구성 시간을 크게 단축한다. 저자들은 2 500~10 000개의 작업을 포함하는 1 000개의 산업 규모 인스턴스를 모은 L‑RIPLIB 벤치마크를 공개했으며, 실험 결과 상용 MIP/CP 솔버 대비 최대 43배 빠른 시간 안에 경쟁력 있는 자원 비용을 달성했다.

상세 분석

**
iScheduler는 기존 MIP·CP 기반 RIP 해결 방식이 대규모 인스턴스에서 겪는 “연산 폭발” 문제를 두 단계로 완화한다. 첫 번째는 프로세스 수준 분해이다. 작업 DAG의 약한 연결 요소를 하나의 프로세스로 정의함으로써, 내부 선후 관계는 대부분 프로세스 내부에 머무르고, 프로세스 간 상호작용은 시간 창(overlap)만을 통해 간접적으로 표현한다. 이렇게 하면 전체 변수·제약 수가 수천 배 감소하고, 각 서브문제는 상대적으로 작은 변수 집합과 제한된 시간 구간을 갖게 된다.

두 번째는 강화학습 기반 프로세스 선택이다. 프로세스 스케줄링 순서는 전역 자원 사용 프로파일(RPU)와 프로세스 간 겹침 정도에 따라 크게 달라진다. 기존 휴리스틱(critical‑path, slack 등)은 고정된 규칙에 의존해 인스턴스마다 성능 편차가 크지만, iScheduler는 MDP를 정의해 상태(프로세스 그래프, 현재 RPU, 남은 프로세스)와 행동(다음에 스케줄링할 프로세스) 사이의 장기 보상을 학습한다. 정책은 가치 함수 근사(예: Graph Neural Network + Temporal Convolution)로 구현돼, 자원 경쟁이 심한 프로세스를 먼저 해결하거나, 자원 사용량을 최소화하는 순서를 자동으로 찾아낸다.

또한 서브문제 해결 단계에서는 기존 상용 MIP 솔버를 그대로 활용하지만, 문제 규모가 작아져 탐색 트리 깊이가 크게 얕아진다. 여러 후보 로컬 스케줄을 생성한 뒤, RL 정책이 제시한 “가치”에 따라 최적 후보를 선택한다. 이 과정은 탐색·활용 균형을 유지하면서 전역 최적화에 가까운 해를 만든다.

동적 환경을 위한 재구성 메커니즘도 핵심이다. 파라미터 변동(작업 기간, 자원 요구량, 선후 관계) 발생 시, 영향을 받은 프로세스만 ‘unscheduled’ 상태로 표시하고, 나머지는 기존 스케줄을 그대로 유지한다. 따라서 전체 문제를 처음부터 다시 풀 필요가 없으며, 재스케줄링 비용이 크게 감소한다.

실험에서는 L‑RIPLIB이라는 1 000개의 대규모 인스턴스(2 500~10 000 작업)를 새로 구축해, Gurobi·CP Optimizer와 같은 상용 솔버, 그리고 최신 분해 기반 방법(COPTER, POP)과 비교했다. iScheduler는 평균 15‑30배 빠른 feasibility time를 기록했으며, 최종 자원 비용은 1‑3% 수준에서 상용 솔버와 동등하거나 약간 우수했다. 재구성 실험에서도 기존 솔버 대비 5‑12배 빠른 응답 시간을 보이며, 비용 악화도 최소화했다.

이 논문의 주요 기여는 (1) 대규모 RIP를 위한 프로세스‑레벨 분해와 MDP 기반 순서 결정 프레임워크, (2) 산업 현장 수준의 대규모 벤치마크(L‑RIPLIB) 공개, (3) 동적 재구성을 자연스럽게 지원하는 설계와 실증적 성능 향상이다. 특히 RL 정책이 “어떤 프로세스를 언제 스케줄링할지”라는 고차원 의사결정을 자동화함으로써, 기존 휴리스틱 기반 방법이 갖는 인스턴스 의존성을 크게 완화했다. 향후 연구는 정책 일반화(다양한 자원 유형·제약 추가)와 멀티‑에이전트 협업을 통한 병렬 서브문제 해결, 그리고 연속 학습을 통한 실시간 파라미터 변동 적응 등에 초점을 맞출 수 있다.

대규모 자원 투자 문제를 위한 강화학습 기반 연속 최적화 프레임워크 iScheduler

초록

상세 분석

댓글 및 학술 토론

의견 남기기