날씨와 기후 돔프 성능 예측 및 에너지 효율
초록
ESCAPE 프로젝트의 D3.5 보고서는 기상·기후 응용에 핵심이 되는 “돔프”(Dwarf)들을 GPU와 CPU가 혼합된 하이브리드 슈퍼컴퓨터 환경에서 예측 가능한 성능 및 에너지 모델로 확장한다. 기존 단일‑CPU 모델에 MPI 기반 멀티노드 확장을 추가하고, 세 가지 GPU 아키텍처(Fermi, Kepler, Maxwell)와 ACRANEB2 복사 돔프, Spherical Harmonics, BiFFT 등을 대상으로 Roofline 분석·프로파일링·검증을 수행한다. 모델은 DCworms 시뮬레이터에 통합돼 전체 NWP 워크플로우의 시간‑대‑솔루션(time‑to‑solution)과 에너지‑대‑솔루션(energy‑to‑solution)을 시스템 규모까지 추정한다.
상세 분석
본 보고서는 먼저 GPU의 SIMT 구조와 SM(Streaming Multiprocessor) 내부의 워프, 레지스터, 공유 메모리 동작 방식을 상세히 설명하고, 이를 기반으로 Roofline 모델을 구축한다. Fermi, Kepler, Maxwell 세 세대의 메모리 대역폭과 연산 집약도(Flop/Byte) 차이를 정량화하여 각 돔프 커널이 어느 영역(메모리‑바운드 vs. 컴퓨팅‑바운드)에 위치하는지를 시각화한다. 특히, ACRANEB2 복사 돔프는 double‑precision 연산 비중이 높아 GPU의 FP64 성능 제한을 명확히 드러냈으며, 이를 보완하기 위해 블록 크기와 스레드 수를 최적화한 결과가 Figure 3‑9에 제시된다.
멀티노드 확장은 MPI 통신 비용을 모델에 포함시키는 방식으로 구현된다. Spherical Harmonics와 BiFFT 돔프에 대해 각 노드당 계산량과 통신량을 파라미터화하고, 네트워크 대역폭·레턴시를 실험적으로 측정한 뒤 모델에 반영한다. 이 과정에서 통신‑오버랩(overlap) 전략이 성능 향상에 미치는 영향을 정량적으로 분석하였다.
에너지 모델은 CPU와 GPU 각각에 대해 패키지(PKG)와 DRAM 전력 계수를 별도로 추정한다. Intel Xeon E5‑2697v3와 Nvidia GeForce 970, Tesla K20m, Tesla 2070‑q에 대한 실측 전력 데이터를 기반으로 W(전력)와 Q(에너지) 값을 도출하고, 돔프별 연산 단계별 에너지 소비를 시뮬레이션한다. 결과적으로, 동일한 시간‑대‑솔루션을 달성할 경우 GPU 가속이 에너지 효율을 30 % 이상 개선함을 확인했다.
DCworms 시뮬레이터에 통합된 모델은 전체 NWP 워크플로우(예: BiFFT → ACRANEB2)에서 CPU와 GPU가 각각 담당하는 작업을 스케줄링하고, 시스템 규모(수천 노드)까지의 성능·에너지 예측을 가능하게 한다. 시뮬레이션 결과는 실제 실행 결과와 평균 10 % 이내의 오차를 보이며, 이는 모델의 신뢰성을 입증한다. 또한, 다양한 하드웨어 조합(예: Xeon + GeForce 970, Xeon + Tesla K20m)에서의 시간‑대‑솔루션·에너지‑대‑솔루션 트레이드오프를 정량화하여, 차세대 슈퍼컴퓨터 설계 시 최적 아키텍처 선택에 실질적인 가이드를 제공한다.
핵심 인사이트는 다음과 같다. ① GPU 세대별 메모리·연산 특성을 Roofline 모델에 정확히 매핑함으로써 병목을 사전에 식별할 수 있다. ② MPI 통신 비용을 정밀히 모델링하면 멀티노드 확장 시 예상 성능 저하를 최소화할 수 있다. ③ 에너지 모델을 CPU·GPU 각각에 적용하면 하이브리드 시스템에서 에너지 효율을 극대화하는 작업 배분 전략을 설계할 수 있다. ④ DCworms 기반의 시스템‑스케일 시뮬레이션은 실제 운영 환경에서의 성능·에너지 예측을 가능하게 하여, 차세대 기상·기후 모델링 인프라 구축에 필수적인 의사결정 도구가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기