GPU 노드 활용 최적화로 GROMACS 2018 성능 극대화
초록
본 논문은 2018년 버전 GROMACS를 기준으로 다양한 CPU‑GPU 조합을 벤치마크하여, 동일 예산 하에서 가장 높은 시뮬레이션 생산량을 제공하는 하드웨어 구성을 규명한다. 소비자 등급 GPU를 장착한 노드가 가격 대비 성능(P/P) 면에서 압도적으로 우수함을 확인하고, 기존 노드에 최신 GPU만 교체하는 방식으로도 최신 전용 시스템과 동등한 효율을 얻을 수 있음을 제시한다.
상세 분석
이 연구는 GROMACS 2018의 새로운 오프로드 기능과 최신 GPU 아키텍처(Turing, Volta)의 성능 향상을 정량화한다. 저자는 MEM(80 k 원자)과 RIB(2 M 원자) 두 개의 실제 바이오시스템을 표준 파라미터(2 fs 타임스텝, 1 nm 컷오프 등)로 실행하고, 각 노드 구성에 대해 MPI 랭크, OpenMP 스레드, PME 전용 랭크 수를 최적화한다. 결과는 GPU당 SP FLOPS가 3배 이상 증가했음에도 불구하고, 실제 MD 워크로드에서는 비결합(non‑bonded) 및 PME 커널이 4‑6배 가속되는 비선형 효과가 나타났음을 보여준다. 특히 RTX 2080 Ti와 같은 최신 소비자 GPU는 전문 Tesla V100 대비 전력당 성능이 유리하며, 가격 대비 성능은 2‑3배 이상 뛰어난 것으로 측정되었다. CPU 측면에서는 14 nm 공정 기반의 최신 Xeon 스케일러가 FLOPS는 상승했지만 SIMD(AVX‑512) 활용도와 메모리 대역폭 제한으로 인한 실제 가속은 제한적이었다. 따라서 GROMACS 2018에서 최적의 CPU:GPU 비율은 1 CPU 코어당 1 GPU 정도이며, 다중 GPU를 장착한 경우에도 CPU가 병목을 일으키면 P/P 비율이 감소한다. 비용 분석에서는 초기 하드웨어 구입비와 연간 전력·냉각 비용을 합산한 총소유비용(TCO)를 사용했으며, GPU 중심 노드가 동일 TCO 하에서 CPU‑전용 노드보다 2‑3배 높은 ns/day 생산량을 제공한다. 또한 기존 2014년식 노드에 최신 RTX 2080을 추가하는 경우, 전체 시스템 성능이 거의 새로 구축한 GPU‑중심 클러스터와 동등해져, 자본 회수 기간을 크게 단축시킬 수 있음을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기