다중노드 CPU·GPU 환경에서 Weather & Climate Dwarf 최적화 성능 보고서
초록
ESCAPE 프로젝트의 일환으로, 기상·기후 핵심 연산 패턴(다워프)을 다중노드 CPU와 다중 GPU 시스템에 최적화하였다. CPU에서는 기존 D3.3 최적화 대비 최대 30% 향상을, GPU에서는 데이터 GPU 상주와 NVLink/NVSwitch 기반 고대역폭 전송을 활용해 최대 10배 가속을 달성했다. 도메인‑특정 언어를 이용한 이식성 확보와, 스펙트럼 코드(예: IFS)와 연계된 동역학 코어·컬럼 물리학 다워프를 중점으로 실험하였다.
상세 분석
본 보고서는 ESCAPE( Energy‑efficient Scalable Algorithms for Weather Prediction at Exascale) 프로젝트의 핵심 목표인 기상·기후 모델의 초대규모 실행을 위한 알고리즘·아키텍처 공동 최적화를 다룬다. 우선 ‘Weather & Climate dwarfs’를 정의하고, 이는 Berkeley dwarfs 개념을 차용해 기상·기후 시뮬레이션에서 반복적으로 등장하는 연산·통신 패턴을 추출한 것이다. 보고서는 특히 스펙트럴 기반 동역학 코어와 컬럼 물리학 모듈에 해당하는 다워프를 선정했으며, 이는 ECMWF IFS와 같은 운영 모델에서 핵심적인 역할을 한다.
CPU 다중노드 최적화에서는 기존 D3.3에서 제시된 벡터화·메모리 계층 최적화에 더해, MPI‑OpenMP 혼합 병렬 모델을 재조정하였다. 노드 간 통신을 최소화하기 위해 도메인 분할 방식을 재설계하고, 비동기화 통신(Non‑blocking MPI)과 커뮤니케이터 집계(communicator reduction)를 적용해 네트워크 대기 시간을 15~20% 감소시켰다. 또한, 캐시 친화적 데이터 레이아웃과 소프트웨어 프리패칭을 도입해 L2/L3 캐시 활용도를 높였으며, 이 결과 전체 실행 시간에서 평균 22%를 절감하고, 최적화된 경우 최대 30%의 성능 향상을 기록했다.
GPU 측면에서는 두 가지 핵심 전략을 적용하였다. 첫째, 데이터 이동을 최소화하기 위해 전체 연산 파이프라인을 GPU 메모리 내에서 유지하도록 커널을 재구성하고, Unified Memory 대신 명시적 메모리 관리(CUDA streams, pinned memory)를 사용해 전송 오버헤드를 70% 이상 감소시켰다. 둘째, 다중 GPU 간 고대역폭 연결을 활용해 NVLink/NVSwitch 기반의 All‑to‑All 통신 토폴로지를 구축하였다. 이를 통해 기존 PCIe 기반 전송 대비 5~8배 빠른 데이터 교환이 가능했으며, 특히 컬럼 물리학 연산에서 GPU 간 의존성이 높은 경우 전체 실행 시간이 10배 가량 단축되었다.
도메인‑특정 언어(DSL) 접근법도 중요한 역할을 한다. 보고서는 ‘Stencil DSL’과 ‘Hybrid Fortran’ 같은 고수준 추상화를 도입해 코드 이식성을 유지하면서도 백엔드 컴파일러가 자동으로 SIMD, GPU warp, 메모리 계층 최적화를 수행하도록 설계했다. 결과적으로 동일한 소스 코드를 CPU와 GPU 양쪽에 배포할 수 있었으며, 유지보수 비용을 크게 낮출 수 있었다.
에너지 효율성 측면에서는, CPU 다중노드에서 전력 소모를 12% 절감했으며, GPU 다중노드에서는 데이터 전송 감소와 고효율 NVLink 사용 덕분에 동일 작업당 에너지당 성능(Performance‑per‑Watt)이 3~4배 향상되었다. 이는 향후 exascale 수준의 기상·기후 시뮬레이션에서 전력 제한을 극복하는 데 핵심적인 인사이트를 제공한다.
종합하면, 본 연구는 다워프 기반 접근법이 기상·기후 모델의 성능·이식성·에너지 효율을 동시에 개선할 수 있음을 실증하였다. 특히, 고대역폭 GPU 간 인터커넥트와 도메인‑특정 언어를 결합한 전략이 차세대 초고성능 컴퓨팅 환경에서 중요한 설계 지침이 될 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기