슈퍼컴퓨터를 위한 파일럿 시스템 RADICAL Pilot의 설계와 성능

슈퍼컴퓨터를 위한 파일럿 시스템 RADICAL Pilot의 설계와 성능
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 파이럿(Pilot) 패러다임을 구현한 RADICAL‑Pilot(RP)의 설계·구조·구현 방식을 상세히 설명하고, Cray 계열 슈퍼컴퓨터에서의 적용 방법과 100 tasks/초 이상의 실행률, 16 000개 동시 작업까지 지원하는 확장성을 실험적으로 입증한다.

상세 분석

RADICAL‑Pilot은 전통적인 HPC 환경이 단일 대규모 작업에 최적화된 점을 보완하기 위해, 작업 단위인 “유닛”(Compute Unit)과 자원 집합을 추상화한 “파일럿”(Pilot)을 별도로 관리한다. 이때 파일럿은 SAGA 인터페이스를 통해 다양한 스케줄러에 제출되며, 파일럿이 활성화되면 내부에 배치된 Agent가 MongoDB 기반 메시지 브로커를 통해 유닛을 받아 실행한다. 설계상의 핵심은 세 가지 관리 모듈(PilotManager, UnitManager, Agent)로 구성된 다중‑레벨·다중‑엔터티 스케줄링이다. PilotManager는 파일럿의 라이프사이클을 제어하고, UnitManager는 유닛의 스케줄링 정책(조기 바인딩·지연 바인딩)을 적용한다. Agent는 Stager, Scheduler, Executer로 세분화돼 ZeroMQ 통신으로 구성 요소 간 흐름을 조정한다. 특히 Cray 시스템에서 ALPS와 CCM의 제약을 극복하기 위해 네 가지 실행 모드(예: ALPS 직접 사용, CCM 내부/외부 실행, Open Run‑Time Environment 등)를 제공함으로써, 파일럿이 노드 레벨에서 다중 작업을 효율적으로 배치할 수 있게 한다. 성능 평가에서는 파일럿당 100 tasks/초 이상의 스루풋을 달성하고, 16 K 동시 유닛 실행 시에도 자원 활용률이 80 % 이상 유지됨을 확인했다. 이는 기존 파일럿 시스템이 주로 단일 코어·짧은 작업에 최적화된 것과 달리, RP가 다중 코어·다양한 작업 유형을 동시에 처리할 수 있음을 의미한다. 또한, MongoDB 기반의 비동기 큐와 ZeroMQ 기반 내부 통신이 병목을 최소화하고, Python 기반 모듈화가 새로운 스케줄링 알고리즘이나 실행 환경을 손쉽게 플러그인 형태로 추가할 수 있게 한다. 이러한 설계는 향후 AI‑driven 워크플로우, 대규모 앙상블 시뮬레이션, 데이터 집약형 분석 등 복합적인 HPC 워크로드에 대한 확장성을 보장한다.


댓글 및 학술 토론

Loading comments...

의견 남기기