K컴퓨터로 구현한 천억 입자 중력 시뮬레이션
초록
본 논문은 세계 최초로 1조(10¹²) 입자의 중력 N‑Body 시뮬레이션을 일본의 슈퍼컴퓨터 K computer 전체 시스템에서 수행한 결과를 보고한다. 하이브리드 TreePM 방식을 채택해 단거리 힘은 트리 알고리즘, 장거리 힘은 입자‑격자(Particle‑Mesh) 방법으로 계산했으며, 특화된 중력 커널과 새로운 통신 알고리즘을 통해 24576노드에서 1.53 Pflops, 82944노드에서 4.45 Pflops(피크 대비 49 %·42 %)의 평균 성능을 달성했다.
상세 분석
이 연구는 천문학적 규모의 N‑Body 시뮬레이션을 실현하기 위해 알고리즘 설계와 시스템 최적화가 어떻게 결합될 수 있는지를 보여준다. 기존 Gordon‑Bell 수상작들 대부분이 순수 트리(Octree) 방식에 의존했지만, 저자들은 TreePM 하이브리드 방식을 선택했다. 트리 파트는 Barnes‑Hut 알고리즘을 기반으로 하여 입자 간 거리 기준으로 셀을 분할하고, 다중 레벨에서 근접 입자군에 대한 정확한 중력 계산을 수행한다. 반면 장거리 힘은 Fourier 변환을 이용한 PM(Particle‑Mesh) 방법으로 처리해, 격자 상에서의 포텐셜을 빠르게 구하고 역변환으로 힘을 얻는다. 이 두 파트를 결합하면 트리의 O(N log N) 복잡도와 PM의 O(N) 복잡도를 동시에 활용해, 전체 복잡도를 O(N log N) 이하로 낮출 수 있다.
K computer는 8코어 SPARC64 VIIIfx 프로세서와 16 GB 메모리를 갖춘 82 944개의 노드로 구성된 5차원 토러스 네트워크를 제공한다. 저자들은 각 노드에 12 M 입자를 할당해 메모리 한계를 극복했으며, 트리 연산에 최적화된 SIMD 어셈블리 커널을 개발해 부동소수점 연산 효율을 80 % 이상 끌어올렸다. 특히, 트리 탐색 단계에서 발생하는 비정형 메모리 접근을 최소화하기 위해 입자 데이터를 공간‑피벗 순서로 재배열하고, 캐시 친화적인 데이터 구조를 설계했다.
장거리 PM 연산은 전역 FFT와 그리드 간 통신이 병목이 되기 쉬운데, 저자들은 5D 토러스 위에 맞춤형 파이프라인 통신 스킴을 도입했다. 이 스킴은 데이터 전송을 단계별로 겹쳐 수행해 통신 대기 시간을 30 % 이상 감소시켰으며, FFT 연산은 고정된 1D 슬라이스 분할 방식 대신 동적 로드 밸런싱을 적용해 노드 간 부하 불균형을 최소화했다. 결과적으로, 전체 시뮬레이션에서 통신 비용은 전체 실행 시간의 15 % 미만에 머물렀다.
성능 측정에서는 강력한 스케일링을 확인했다. 24 576노드(≈1 Pflops)에서 1.53 Pflops, 82 944노드(≈4 Pflops)에서 4.45 Pflops를 달성했으며, 이는 각각 피크 성능의 49 %와 42 %에 해당한다. 효율 저하의 주요 원인은 메모리 대역폭 제한과 FFT 단계에서의 네트워크 포화였으며, 향후 고대역폭 메모리와 더 정교한 통신 스케줄링을 통해 개선 가능하다. 이 연구는 천문학적 규모의 시뮬레이션을 실시간에 가깝게 수행할 수 있는 길을 열었으며, 차세대 슈퍼컴퓨터에서도 동일한 하이브리드 접근법이 적용될 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기