PICCANTE 코드의 대규모 병렬 최적화와 Tier‑0 슈퍼컴퓨터에서의 확장성 향상

본 논문은 오픈소스 전자기 입자‑인‑셀(PIC) 코드인 PICCANTE의 강·약 스케일링을 JUQUEEN과 FERMI 슈퍼컴퓨터에서 정밀 분석한다. Scalasca를 활용해 통신·연산·I/O 병목을 식별하고, MPI·OpenMP 혼합 병렬화, 메모리 레이아웃 재구성, 비동기 HDF5 출력 등 여러 개선을 적용했다. 최적화 후 강 스케일링에서 8192 코어까

PICCANTE 코드의 대규모 병렬 최적화와 Tier‑0 슈퍼컴퓨터에서의 확장성 향상

초록

본 논문은 오픈소스 전자기 입자‑인‑셀(PIC) 코드인 PICCANTE의 강·약 스케일링을 JUQUEEN과 FERMI 슈퍼컴퓨터에서 정밀 분석한다. Scalasca를 활용해 통신·연산·I/O 병목을 식별하고, MPI·OpenMP 혼합 병렬화, 메모리 레이아웃 재구성, 비동기 HDF5 출력 등 여러 개선을 적용했다. 최적화 후 강 스케일링에서 8192 코어까지 85 % 이상의 효율을 달성했으며, 약 10 GB/s 수준의 지속적인 I/O 처리량을 확보했다.

상세 요약

PICCANTE는 완전 상대론적 입자‑인‑셀 방정식을 풀어 레이저‑플라즈마 상호작용을 시뮬레이션하는 데 특화된 코드이다. 기존 버전은 MPI 기반 도메인 분할만을 사용했으며, 입자 이동·필드 업데이트 단계에서 메모리 접근 패턴이 비연속적이고, 출력 단계에서는 동기식 파일 쓰기로 인해 I/O 병목이 심했다. 본 연구는 PRACE Preparatory Access Project의 일환으로 두 대형 Tier‑0 시스템, 독일의 JUQUEEN(IBM Blue Gene/Q)과 이탈리아의 FERMI(IBM Power9)에서 다중 버전 코드를 실행해 성능 데이터를 수집하였다.

Scalasca 분석 결과, 가장 큰 시간 소모는 (1) 전역 필드 동기화 시 발생하는 MPI_Allreduce 호출, (2) 입자 이동 시 발생하는 경계 교환(MPI_Isend/Irecv) 그리고 (3) 매 시뮬레이션 스텝마다 수행되는 동기식 HDF5 파일 쓰기였다. 특히, JUQUEEN에서는 네트워크 대역폭이 제한적이어서 Allreduce가 전체 실행 시간의 30 % 이상을 차지했으며, FERMI에서는 파일 시스템 메타데이터 처리 지연이 I/O 시간을 2배 이상 증가시켰다.

이를 해결하기 위해 다음과 같은 최적화 전략을 적용하였다. 첫째, 통신 빈도를 줄이기 위해 필드 업데이트를 2‑step 방식으로 재구성하고, Allreduce를 비동기화된 누적 합산(accumulate‑then‑reduce)으로 교체했다. 둘째, 입자 데이터 구조를 구조체‑오브‑배열(SOA) 형태로 변환해 메모리 연속성을 확보하고, 캐시 라인 활용도를 높였다. 셋째, MPI와 OpenMP를 혼합해 각 노드 내에서 스레드 수준 병렬화를 도입, NUMA 친화적 메모리 할당을 적용했다. 넷째, I/O는 전통적인 동기식 HDF5 대신 비동기식 HDF5와 MPI‑IO 기반의 집합 파일 쓰기로 전환했으며, 데이터 압축(zlib)과 청크(chunk) 설정을 최적화해 파일 크기를 40 % 감소시켰다.

성능 평가 결과, 최적화된 PICCANTE는 JUQUEEN에서 4096 코어 사용 시 강 스케일링 효율이 78 %에서 92 %로 상승했으며, 8192 코어에서는 85 % 이상의 효율을 유지했다. 약 10 ps의 물리 시간(≈10⁶ 입자 스텝) 시뮬레이션을 30 분 내에 완료할 수 있었다. FERMI에서는 I/O 처리량이 2 GB/s에서 9.8 GB/s로 크게 향상되었고, 전체 실행 시간의 I/O 비중이 5 % 이하로 감소했다. 또한, 약 2 배 이상의 메모리 사용 효율 향상으로 동일한 물리 규모를 더 작은 노드 수로도 시뮬레이션할 수 있게 되었다.

이러한 결과는 대규모 레이저‑플라즈마 연구뿐 아니라, 고에너지 천체 물리, 충돌 플라즈마 등 입자‑인‑셀 기반 과학 시뮬레이션 전반에 적용 가능한 최적화 방안을 제시한다. 특히, Scalasca와 같은 성능 분석 툴을 활용한 정량적 병목 식별, 그리고 통신·연산·I/O를 동시에 고려한 통합 최적화가 Tier‑0 시스템에서의 확장성을 극대화한다는 점을 강조한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...