기후·날씨 핵심 연산의 GPU·MIC·광학 가속 최적화 보고서
초록
ESCAPE 프로젝트의 일환으로, 기후·날씨 예측에 핵심적인 ‘Dwarf’ 연산을 CPU, Xeon Phi(MIC), GPU, 그리고 Optalysys 광학 프로세서에 최적화하였다. 컴파일러 지시문을 활용한 CPU 가속은 1.1‑2.5배, GPU에서는 데이터 지역성 및 메모리 접근 최적화를 통해 스펙트럴 변환 23배, MP‑DATA 9배의 속도 향상을 달성했다. 또한 광학 프로세서에서 순수 광학 방식으로 스펙트럴 변환을 구현, 가능성을 입증하였다.
상세 분석
본 보고서는 기후·날씨 시뮬레이션에서 빈번히 등장하는 ‘Dwarf’ 패턴을 정의하고, 네 가지 하드웨어 플랫폼에 대한 상세 최적화 과정을 제시한다. 먼저 CPU 기반 시스템에서는 OpenMP와 OpenACC 지시문을 활용해 루프 전개와 벡터화 수준을 높였으며, 메모리 정렬과 프리패칭을 통해 메모리 대역폭 활용도를 개선하였다. 결과적으로 기존 포트된 코드 대비 1.1배에서 최대 2.5배의 실행 시간 감소를 기록했다.
Xeon Phi(MIC)에서는 코어 수가 많지만 클럭 주파수가 낮은 특성을 고려해, 작업을 대규모 블록으로 나누어 각 코어에 균등하게 할당하고, SIMD 레지스터 폭에 맞는 데이터 구조를 재배열하였다. 또한, ‘offload’ 모드를 사용해 호스트와 디바이스 간 데이터 전송을 최소화함으로써 메모리 병목을 완화했다. 이 접근법은 GPU 수준의 가속에는 미치지 못했지만, 기존 CPU 대비 1.8배 정도의 향상을 제공한다.
GPU 최적화는 가장 큰 성과를 보였다. 스펙트럴 변환에서는 cuFFT 라이브러리를 직접 호출하는 대신, 커스텀 커널을 설계해 트랜스포즈와 배치 연산을 한 번에 수행하도록 하였다. 이를 위해 데이터 레이아웃을 ‘Structure‑of‑Arrays’ 형태로 변환하고, 공유 메모리를 적극 활용해 메모리 접근 패턴을 최적화하였다. 그 결과, 기존 CPU 구현 대비 23배의 속도 향상이 가능했다. MP‑DATA(다중 위상 차분법)에서는 고차원 스테이지 루프를 재구성하고, 스레드 블록 크기를 실험적으로 튜닝해 메모리 동시성을 극대화하였다. 이 과정에서 스레드 워프 간의 발산을 최소화하고, 연산 집약도를 높여 9배 가속을 달성하였다.
Optalysys 광학 프로세서는 전통적인 전자식 연산과는 다른 패러다임을 제공한다. 보고서는 스펙트럴 변환을 광학 푸리에 변환(OTF) 모듈에 매핑하는 방법을 제시한다. 입력 데이터를 광학 파장에 맞게 인코딩하고, 회절 격자를 이용해 푸리에 변환을 수행한 뒤, 광전 탐지기로 결과를 디지털화한다. 실험 결과, 광학 시스템은 전자식 GPU 대비 약 2배 정도의 이론적 속도 향상을 기대할 수 있음을 보여주었으며, 현재는 입출력 및 정밀도 제한이 남아 있지만, 향후 하드웨어 개선을 통해 실용적인 기후 모델링에 적용 가능할 것으로 전망된다.
전반적으로 본 연구는 다양한 하드웨어 아키텍처에 대한 맞춤형 최적화 전략을 제시함으로써, 기후·날씨 시뮬레이션의 성능 포터블리티와 에너지 효율성을 향상시키는 데 기여한다. 특히 GPU와 광학 프로세서의 결합은 차세대 초고성능 컴퓨팅 환경에서 중요한 역할을 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기