고성능 컴퓨팅 클러스터에서 탄력적 작업 스케줄링 평가

고성능 컴퓨팅 클러스터에서 탄력적 작업 스케줄링 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 Cori, Eagle, Theta 슈퍼컴퓨터의 실제 워크로드를 활용해, 작업이 실행 중에 할당 노드를 동적으로 조정할 수 있는 탄력적(가변) 스케줄링이 시스템 효율성과 사용자 만족도에 미치는 영향을 평가한다. 0 %부터 100 %까지 다양한 비율의 가변 작업을 적용하고, 기존 EASY‑Backfill 기반의 고정 스케줄링과 네 가지 가변 스케줄링 전략(Avg, Min, Pref, KeepPref)을 비교한다. 실험 결과, 가변 작업을 도입하면 작업 전체 대기시간, 실행시간, 턴어라운드 시간 등이 크게 감소하고, 노드 활용률이 5 %에서 52 %까지 향상된다. 특히 20 % 수준의 가변 작업만 도입해도 의미 있는 성능 개선을 확인할 수 있다.

상세 분석

이 논문은 HPC 환경에서 자원 활용률이 30 %~80 % 수준에 머무는 현실적인 문제를 지적하고, 작업이 실행 중에 노드 수를 늘리거나 줄일 수 있는 ‘가변(malleable)’ 작업 개념을 도입함으로써 이러한 비효율을 해소하려는 시도를 체계적으로 검증한다. 먼저, Cori(Haswell·KNL), Eagle, Theta 세 슈퍼컴퓨터의 실제 작업 로그를 정제·전처리하여 시뮬레이션 입력으로 활용하였다. 특히 Cori의 Haswell 파티션에서는 공유 노드 작업과 일일 분할 기록으로 인해 인위적인 활용률 과대평가가 발생했으며, 이를 병합·제거함으로써 실제 시스템 상황에 근접한 데이터셋을 구축하였다.

시뮬레이션 엔진으로는 ElastiSim을 사용했으며, 각 작업에 최소·최대·선호 노드 수를 할당하기 위해 기존 연구에서 제시된 speed‑up 모델과 효율성 임계값을 적용하였다. 가변 작업 비율을 0 %에서 100 %까지 10 % 단위로 변화시키고, 각 비율마다 10번의 시드 변형 실험을 수행해 평균값과 IQR을 보고하였다.

스케줄링 전략은 총 다섯 가지로 구성된다. 기존의 rigid EASY‑Backfill은 고정된 노드 수를 요구하는 작업만을 대상으로 하며, 가변 작업을 지원하는 네 가지 전략은 각각 노드 할당 우선순위를 다르게 정의한다. ‘Avg’는 현재 할당량과 최소·최대 범위 사이의 비율을 기준으로, ‘Min’은 최소 요구량 초과분을, ‘Pref’는 사용자가 지정한 선호 노드 수와의 차이를, ‘KeepPref’는 선호 노드 수를 가능한 한 유지하도록 설계되었다.

실험 결과는 일관되게 가변 작업 도입이 성능을 크게 향상시킴을 보여준다. Cori Haswell 워크로드에서는 가변 비율이 40 %를 넘어가면 평균 대기시간이 10 초 이하로 감소하고, 전체 턴어라운드 시간이 66 % 감소한다. 노드 활용률은 72 %에서 99 % 수준으로 거의 포화에 도달한다. KNL 파티션에서도 유사한 추세가 관찰되었으며, 특히 ‘KeepPref’ 전략이 선호 노드 수를 유지하면서도 확장·축소 연산을 활발히 수행해 자원 재분배 효율을 극대화한다. Eagle과 Theta에서도 가변 비율이 20 % 수준일 때 이미 30 %~50 % 수준의 대기시간 감소와 10 %~20 %의 활용률 향상이 나타났다.

또한, 각 전략별 확장(expand)·축소(shrink) 연산 빈도를 분석한 결과, ‘KeepPref’는 확장 연산이 가장 빈번하게 발생해 작업이 가능한 한 선호 규모를 유지하도록 유도하고, ‘Avg’는 비교적 균형 잡힌 재분배를 수행한다. 반면 ‘Min’은 축소 연산을 최소화해 시스템 전체의 안정성을 높이는 경향이 있다. 이러한 차이는 워크로드의 특성(작업 크기 분포, 런타임 분포)과 가변 비율에 따라 달라지며, 최적 전략 선택이 필요함을 시사한다.

마지막으로 논문은 가변 작업 도입 시 발생할 수 있는 오버헤드(노드 추가·제거 비용)를 시뮬레이션 틱 레이트(2 ~ 4 초)로 근사했으며, 실제 시스템에서의 재구성 비용이 추가로 고려될 경우에도 10 % 이하의 성능 저하만 발생할 것으로 예측한다. 전반적으로, 가변 작업 스케줄링은 현재 HPC 클러스터의 자원 낭비 문제를 해결할 실용적인 방안이며, 제한된 비율만 적용해도 충분히 의미 있는 이점을 제공한다는 점을 입증하였다.


댓글 및 학술 토론

Loading comments...

의견 남기기