그리드 환경에서 DAG 스케줄링 최적화를 위한 지능형 전략
초록
본 논문은 그리드 컴퓨팅 환경에서 의존성을 가진 작업들의 동적 DAG 스케줄링을 위해, 분산·확장·내결함성을 갖춘 새로운 알고리즘을 제안한다. 작업 우선순위는 t‑level·b‑level·ALAP 기반의 휴리스틱 모델로 산출하고, 자원 할당 단계에서는 협력형 유전 알고리즘을 적용한다. MonALISA 모니터링 시스템과 연계해 실시간 자원 상태를 반영하며, 실험 결과 기존 정적 할당 방식 대비 평균 16 % 이상의 완성 시간 감소를 확인하였다.
상세 분석
이 연구는 그리드 환경에서 DAG(Directed Acyclic Graph) 형태의 작업 흐름을 효율적으로 배치하기 위한 두 단계 접근법을 제시한다. 첫 번째 단계는 CCF(Cluster‑Ready Children First) 알고리즘을 기반으로 한 동적 스케줄링으로, 작업 그래프를 위상 순서대로 탐색하면서 RUNNING‑QUEUE와 CHILDREN‑QUEUE라는 두 개의 우선순위 큐에 작업을 삽입한다. 여기서 각 작업의 우선순위는 t‑level(소스에서 해당 노드까지의 최장 경로 가중치)과 b‑level(해당 노드에서 싱크까지의 최장 경로 가중치)의 합으로 정의되며, ALAP(As Late As Possible) 값은 작업 지연 가능성을 정량화한다. 이러한 휴리스틱은 전통적인 리스트 스케줄링 기법보다 makespan을 최소화하는 데 유리함을 보인다.
두 번째 단계는 자원 할당을 최적화하기 위한 협력형 유전 알고리즘(GA)이다. 각 클러스터 노드는 독립적인 초기 집단을 생성하고, 동일한 적합도 함수(작업 요구 메모리·CPU·통신 비용 등)를 사용해 진화 과정을 수행한다. 진화 단계마다 최적 해(염색체)를 다른 노드와 교환하는 마이그레이션 메커니즘을 도입함으로써 전역 최적해에 빠르게 수렴한다. 염색체 길이는 고정이며, 작업 수가 부족하거나 초과될 경우 대기 큐와 패딩을 활용해 균형을 맞춘다.
모니터링은 MonALISA와 그 확장 모듈을 이용해 실시간으로 노드의 CPU 사용량·메모리·네트워크 대역폭 등을 수집한다. 이 정보는 GA의 적합도 계산과 CCF의 자원 선택 단계에 직접 반영되어, 동적인 환경 변화에도 스케줄링이 재조정될 수 있게 한다.
실험에서는 9개의 작업으로 구성된 예시 DAG를 사용해 CCF와 GA 기반 자원 할당을 비교하였다. 정적(고정) 할당 전략에 비해 평균 16 %의 완성 시간 감소를 기록했으며, 특히 통신 비용이 높은 엣지에서의 효율성이 크게 개선되었다. 또한, 분산형 설계 덕분에 단일 장애점이 없으며, 클러스터 수가 증가해도 선형에 가까운 확장성을 보였다.
이 논문의 주요 기여는 (1) t‑level·b‑level·ALAP 기반의 휴리스틱을 CCF와 결합한 동적 DAG 스케줄링 프레임워크, (2) 협력형 유전 알고리즘을 통한 자원 할당 최적화, (3) MonALISA 기반 실시간 모니터링과의 통합을 통한 자가‑조정 메커니즘이다. 이러한 요소들은 그리드 환경에서 복잡한 워크플로우를 효율적으로 실행하고, 자원 활용률을 극대화하는 데 실질적인 가치를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기