ESCAPE 프로젝트 RMI‑EPS 워크플로우 에너지·시간 분석 보고서
초록
ESCAPE 프로젝트의 RMI‑EPS 앙상블 예보 체인의 작업 흐름을 다섯 단계(전처리, 측면 경계조건, 데이터 동화, 예보, 후처리)로 구분하고, 각 단계의 실행 시간과 에너지 소비를 측정하였다. 전체 에너지의 99 %가 예보 단계에서 발생하며, 이 단계가 전체 실행 시간의 약 35 %를 차지한다. 따라서 에너지 절감은 예보 단계 최적화에 집중해야 하고, 시간 단축을 위해서는 예보 외 단계에도 최적화와 추가 dwarf 적용이 필요하다.
상세 분석
본 보고서는 ESCAPE( Energy‑efficient Scalable Algorithms for Weather Prediction at Exascale) 프로젝트의 일환으로, RMI‑EPS(Regional Model Integration – Ensemble Prediction System) 워크플로우를 정량적으로 분석하였다. 워크플로우는 전처리(pre‑processing), 측면 경계조건(lateral boundary conditions, LBCs), 데이터 동화(data assimilation), 예보(forecast), 후처리(post‑processing)라는 다섯 개의 주요 카테고리로 구분되며, 각각은 서로 다른 계산·통신 패턴을 보인다.
에너지와 벽시계 시간 측정은 전체 파이프라인을 한 번 실행한 뒤, 각 카테고리별로 전력 측정 장비와 시스템 로그를 이용해 누적값을 추출하였다. 결과는 두 가지 중요한 현상을 드러낸다. 첫째, 예보 단계가 전체 에너지 소비의 99 %를 차지한다는 점이다. 이는 예보 단계가 대규모 3‑D 대기역학 모델을 고해상도로 실행하면서, 수천 개의 MPI 프로세스와 GPU 가속기를 동시에 활용하기 때문이다. 둘째, 시간 측면에서는 예보 단계가 전체 실행 시간의 약 35 %에 불과하지만, 나머지 65 %는 전처리·LBC·동화·후처리 단계가 차지한다.
이러한 비대칭은 최적화 전략을 선택할 때 중요한 시사점을 제공한다. 에너지 효율을 극대화하려면 예보 단계의 알고리즘 재구성, 메모리 접근 패턴 최적화, 그리고 하드웨어 특화(Dwarf) 구현에 집중해야 한다. 예를 들어, 현재 사용 중인 스펙트럴 변환과 고차원 선형 방정식 솔버를 저전력 GPU 커널로 교체하거나, 혼합 정밀도 연산을 도입하면 전력 소모를 크게 낮출 수 있다. 반면, 실행 시간 단축을 목표로 할 경우, 전처리와 데이터 동화 단계에서도 병렬화 수준을 높이고, I/O 병목을 완화하기 위한 비동기 입출력 및 데이터 압축 기술을 적용해야 한다. 특히 LBC 단계는 외부 경계 데이터를 대규모 파일 시스템에서 읽어오는 과정이 오래 걸리므로, 데이터 캐싱 및 파이프라인화가 효과적이다.
또한, 보고서는 Amdahl’s Law를 적용해 이론적 최대 가속률을 계산하였다. 예보 단계만 최적화했을 경우 전체 워크플로우의 시간 감소율은 1 – (0.35 + 0.65·(1 – r)) 형태로, r이 예보 단계의 가속률이라면 전체 가속률은 1.5배를 초과하기 어렵다. 따라서 전체 시스템 성능을 크게 향상시키려면 예보 외 단계에도 적절한 dwarf를 도입하고, 파이프라인 전체를 균형 있게 최적화해야 한다.
요약하면, 에너지 절감은 예보 단계에 집중하고, 시간 최적화는 전처리·LBC·동화·후처리까지 포괄하는 다중‑dwarf 전략이 필요하다는 것이 본 분석의 핵심 결론이다.
댓글 및 학술 토론
Loading comments...
의견 남기기