과학 그리드 HPC 작업을 위한 가상머신 동적 스케줄링

초록

본 논문은 과학 그리드 환경에서 고성능 컴퓨팅(HPC) 작업을 가상머신(VM) 위에서 실행할 때 발생하는 성능 오버헤드를 실시간으로 추정하고, 작업의 유형과 마감시간을 고려한 지능형 스케줄링 기법을 제안한다. 제안된 방법은 VM 배치와 자원 할당을 동적으로 조정함으로써 마감시간 내에 완료되는 작업 수를 최대화한다. 실험 결과, 기존 스케줄러 대비 deadline 만족률이 크게 향상됨을 확인하였다.

상세 요약

이 연구는 과학 그리드에서 가상화 기술을 도입함으로써 얻을 수 있는 자원 격리와 맞춤형 환경 제공의 장점을 강조하면서도, 가상화 계층이 초래하는 성능 저하가 특히 마감시간이 엄격한 HPC 작업에 미치는 영향을 정량적으로 분석한다. 먼저, CPU 집약형, 메모리 집약형, 네트워크 I/O 집약형 등 서로 다른 워크로드 특성에 따라 가상화 오버헤드가 어떻게 달라지는지를 실험적으로 측정한다. 이러한 측정값을 기반으로 실시간 오버헤드 모델을 구축하고, 현재 실행 중인 VM의 자원 사용량과 워크로드 유형을 지속적으로 모니터링한다.

스케줄링 알고리즘은 두 단계로 구성된다. 첫 번째 단계에서는 각 작업의 예상 실행 시간과 마감시간을 고려해 가능한 VM 배치를 후보군으로 생성한다. 여기서 오버헤드 모델을 적용해 각 후보 배치에 대한 실제 실행 시간 추정치를 보정한다. 두 번째 단계에서는 보정된 실행 시간과 마감시간 간의 차이를 최소화하도록 비용 함수를 정의하고, 비용이 가장 낮은 배치를 선택한다. 비용 함수는 작업의 deadline violation 위험, VM 간 자원 충돌 가능성, 그리고 전체 시스템의 이용률을 동시에 고려한다.

알고리즘 구현 시, 기존 그리드 매니저(예: Globus Toolkit)와 연동하여 VM 생성·삭제를 자동화하고, KVM 기반의 경량 VM을 사용해 오버헤드 자체를 최소화한다. 또한, 스케줄러는 주기적인 재평가 주기를 두어 시스템 상태 변화에 따라 동적으로 재배치를 수행한다.

평가에서는 실제 과학 그리드 테스트베드와 시뮬레이션 환경을 모두 활용하였다. 워크로드는 NASA와 CERN에서 공개한 HPC 베치 작업을 변형해 사용했으며, 마감시간 비율을 10%~30% 범위로 설정하였다. 결과는 제안된 스케줄러가 기존 FIFO·우선순위 기반 스케줄러에 비해 deadline 만족률을 평균 25%p 상승시켰으며, 전체 평균 실행 시간은 12% 감소함을 보여준다. 특히, 네트워크 I/O 집약형 작업에서 오버헤드 보정이 큰 효과를 발휘했다.

한계점으로는 오버헤드 모델이 초기 학습 단계에서 충분한 샘플을 필요로 하며, 급격한 워크로드 변동이 발생할 경우 모델 업데이트에 지연이 발생할 수 있다. 또한, 현재 구현은 단일 클러스터 환경에 초점을 맞추었기 때문에 다중 도메인 그리드에서의 확장성 검증이 추가로 요구된다. 향후 연구에서는 머신러닝 기반 예측 모델을 도입해 오버헤드 추정 정확도를 높이고, 분산 스케줄러와의 연동을 통해 글로벌 그리드 수준에서의 동적 VM 배치를 구현할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)