마감시간 인식 가상머신 스케줄러: 과학 그리드와 클라우드 컴퓨팅을 위한 최적화

초록

본 논문은 가상머신 환경에서 실행되는 HPC 작업의 마감시간을 보장하기 위해 실시간으로 실행 지연을 감지하고 동적으로 자원을 재조정하는 마감시간 인식 스케줄링 알고리즘을 제안한다. 신호 처리와 통계 기법을 융합한 두 가지 접근법을 구현하고, 실제 과학 그리드와 클라우드 워크로드에 적용한 실험을 통해 마감시간 충족률과 하드웨어 활용도 향상을 입증한다.

상세 요약

이 연구는 가상화가 HPC 워크로드에 도입될 때 발생하는 성능 손실을 최소화하고, 특히 마감시간이 엄격히 정의된 작업들의 종속성을 고려한 스케줄링 문제에 초점을 맞춘다. 기존의 VM 기반 스케줄러는 주로 CPU·메모리 할당량을 기준으로 자원을 배분했으며, 작업 실행 중 발생하는 지연을 사후에 보정하는 방식에 머물렀다. 그러나 과학 그리드에서는 작업 A가 완료되어야만 작업 B가 시작될 수 있는 DAG(Directed Acyclic Graph) 구조가 일반적이며, 하나의 지연이 전체 파이프라인의 마감시간 초과로 이어질 위험이 크다. 논문은 이러한 구조적 특성을 반영하기 위해 ‘deadline‑aware’라는 개념을 도입한다.

알고리즘은 크게 두 단계로 구성된다. 첫 번째 단계는 실시간 모니터링 모듈이 VM 내부의 CPU 사이클, I/O 대기시간, 컨텍스트 스위치 비율 등을 샘플링하여 현재 실행 속도를 추정한다. 여기서 신호 처리 기법, 특히 저역통과 필터와 칼만 필터를 활용해 노이즈가 섞인 측정값을 부드럽게 보정한다. 두 번째 단계는 통계적 예측 모델을 통해 남은 작업량과 남은 마감시간을 비교한다. 만약 예상 완료 시간이 마감시간을 초과할 조짐이 보이면, 스케줄러는 즉시 ‘스케일‑업’ 혹은 ‘우선순위 재조정’ 정책을 적용한다. 스케일‑업은 동일 물리 서버 내에서 다른 VM에 할당된 여유 CPU 코어를 동적으로 재배치하거나, 필요 시 하이퍼바이저 수준에서 실시간 마이그레이션을 수행한다. 우선순위 재조정은 DAG 상에서의 종속성을 고려해, 마감시간이 촉박한 작업에 높은 가중치를 부여하고, 덜 중요한 작업은 일시적으로 대기열 뒤로 밀어 둔다.

두 가지 구현체가 제시된다. 첫 번째는 ‘신호‑기반 적응형 필터링(Adaptive Filtering)’으로, 실시간 측정값을 기반으로 가중치를 동적으로 조정한다. 두 번째는 ‘통계‑예측 모델링(Predictive Modeling)’으로, 과거 실행 로그를 학습해 작업별 평균 실행 시간과 변동성을 추정하고, 베이지안 업데이트를 통해 실시간에 반영한다. 실험 결과, 신호‑기반 방법은 급격한 부하 변동에 빠르게 대응해 마감시간 초과율을 35% 감소시켰으며, 통계‑예측 방법은 장기적인 워크로드 패턴에 강인해 전체 시스템 활용도를 22% 향상시켰다. 또한 두 방법을 혼합한 하이브리드 모델은 각각의 장점을 결합해 가장 높은 성능을 기록했다.

이 논문의 주요 기여는 다음과 같다. 첫째, 가상화 환경에서 마감시간을 실시간으로 감시하고 보정하는 프레임워크를 제시함으로써 기존 VM 스케줄러의 한계를 극복했다. 둘째, 신호 처리와 통계 학습을 융합한 두 가지 독립적인 알고리즘을 설계하고, 실제 과학 그리드와 클라우드 테스트베드에서 정량적인 성능 향상을 입증했다. 셋째, 마감시간 위반 비용을 최소화하면서도 하드웨어 자원의 활용 효율을 동시에 높이는 다목적 최적화 목표를 달성했다. 이러한 접근은 향후 HPC‑as‑a‑Service, 멀티‑클라우드 연동, 그리고 엣지 컴퓨팅 환경에서도 적용 가능성이 크다.

초록

상세 요약

📜 논문 원문 (영문)