극한 규모 우주 시뮬레이션, BG/Q에서 13.9페타플롭스 달성
초록
HACC 프레임워크는 다중코어·가속기 시스템에 최적화된 하이브리드 알고리즘으로, IBM Blue Gene/Q에서 1,572,864 코어(6.3백만 동시 작업)로 13.94 PFlops(피크 대비 69.2 %)를 기록하며 90 % 수준의 병렬 효율을 유지했다. 3.6조 입자를 초과하는 규모의 베치 테스트는 현재까지 수행된 가장 큰 우주 시뮬레이션이며, 어두운 물질·에너지 연구에 필요한 정밀도와 규모를 동시에 제공한다.
상세 분석
본 논문은 현대 우주론의 핵심 과제인 암흑 물질·암흑 에너지의 물리적 특성을 규명하기 위해, 관측 데이터와 동등한 규모의 수치 시뮬레이션이 필요함을 강조한다. 이를 위해 저자들은 HACC(Hybrid/Hardware Accelerated Cosmology Code)라는 새로운 프레임워크를 설계했으며, 그 핵심은 ‘멀티레벨’ 알고리즘 구조에 있다. 장거리 중력은 Fourier 기반 Particle‑Mesh(PM) 방법으로 처리하고, 단거리 상호작용은 CPU‑코어에 최적화된 Tree 혹은 Fast Multipole Method(FMM)를 선택적으로 적용한다. 이러한 분리 덕분에 메모리 대역폭과 통신 부하를 최소화하면서도 높은 정확도를 유지한다.
BG/Q 아키텍처는 64비트 1.6 GHz PowerPC A2 코어 16개가 하나의 노드에 집적된 4 MB L2 캐시와 고대역폭(≈40 GB/s) 네트워크를 제공한다. HACC는 MPI를 이용해 노드 간 통신을 담당하고, 각 코어에 OpenMP와 SIMD(Quad‑Floating‑Point) 명령을 겹쳐 사용함으로써 코어당 4 스레드·8 플로팅 포인트 연산을 동시에 수행한다. 입자 데이터는 8바이트 정밀도(단일)와 16바이트(이중) 중 선택 가능하도록 설계돼, 메모리 사용량을 3 PB 이하로 제한한다.
성능 측정 결과, 1,572,864 MPI 랭크(코어 수와 동일)에서 6.3 M(6.3 백만) 동시 스레드가 활성화되었으며, 전체 시스템 피크 20.1 PFlops 대비 69.2 %인 13.94 PFlops를 달성했다. 스케일링 테스트에서는 2배 코어 증가 시 1.95배 실행 시간 감소(강한 스케일링)와 1.98배 감소(약한 스케일링)를 보여, 90 % 이상의 병렬 효율을 유지한다. 특히 3.6조 입자(>3.6 × 10¹²) 시뮬레이션은 기존 어떤 우주 시뮬레이션보다 2배 이상 큰 규모이며, 메모리와 I/O 병목을 극복하기 위해 체크포인트와 데이터 출력이 비동기 파이프라인으로 처리되었다.
이러한 결과는 HACC가 현재와 차세대 초고성능 컴퓨팅(HPC) 시스템(Exascale 포함)에서도 확장 가능함을 입증한다. 알고리즘의 모듈화와 하드웨어 추상화 레이어는 GPU·Xeon Phi·ARM 등 다양한 가속기와도 호환 가능하도록 설계돼, 미래의 이종 컴퓨팅 환경에서도 동일한 과학적 목표를 달성할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기