Lennard‑Jones 시스템을 위한 고성능 분자동역학 구현
초록
본 논문은 Lennard‑Jones 입자 시스템에 대한 고전 분자동역학(MD) 시뮬레이션을 효율적으로 구현하는 알고리즘과 CPU 아키텍처별 최적화 기법을 제시한다. 공간 분할 기반의 병렬화 전략을 채택하고, IBM POWER6 기반 HITACHI SR16000/J2와 Intel Xeon 기반 SGI Altix ICE 8400EX에서 대규모 벤치마크를 수행하였다. 4.1 억 입자를 8192 MPI 프로세스로 실행했을 때 NIFS에서는 73 %, ISSP에서는 66 %의 병렬 효율을 달성했으며, 효율 저하 원인으로 OS Jitter에 의한 프로세스 실행 시간 변동을 규명하였다.
상세 분석
이 연구는 Lennard‑Jones 포텐셜을 이용한 대규모 MD 시뮬레이션의 실행 속도를 극대화하기 위해 두 가지 차원의 최적화를 수행한다. 첫 번째는 알고리즘 차원으로, 전통적인 셀 리스트(cell‑list)와 Verlet 리스트를 결합한 하이브리드 이웃 탐색 방식을 도입한다. 이를 통해 입자 간 거리 계산을 최소화하고, 메모리 접근 패턴을 연속적으로 유지함으로써 캐시 효율을 크게 향상시켰다. 두 번째는 하드웨어 차원으로, 각 CPU 아키텍처의 특성을 고려한 저수준 최적화를 적용한다. POWER6 프로세서에서는 SIMD(단일 명령 다중 데이터) 레지스터를 활용한 벡터화와 루프 언롤링을, Xeon 기반 시스템에서는 AVX2 명령어 집합과 메모리 프리패칭을 중점적으로 최적화하였다. 병렬화 전략은 3차원 공간을 균등하게 분할하는 단순한 도메인 분할 방식을 채택했으며, 각 서브도메인 간 경계 교환을 비동기 MPI 통신으로 구현해 통신 오버헤드를 최소화하였다. 실험 결과, 4.1 억 입자를 8192 프로세스로 실행했을 때 NIFS 시스템에서는 73 %의 병렬 효율을, ISSP 시스템에서는 66 %의 효율을 기록하였다. 효율 저하 원인 분석에서는 프로세스별 실행 시간의 변동성이 전체 효율에 큰 영향을 미치는 것으로 나타났으며, 이는 운영체제 스케줄러가 주기적으로 개입하는 OS Jitter 현상과 연관이 있음을 확인하였다. 이러한 결과는 대규모 MD 시뮬레이션에서 하드웨어 친화적 최적화와 OS 레벨의 안정성 관리가 동시에 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기