그리드 성능 진단 ATLAS VO 기반 벤치마크 실험

초록

본 보고서는 ATLAS 가상 조직(VO)을 활용한 그리드 벤치마크 수행 과정을 기술한다. 이질적인 하드웨어·소프트웨어 환경이 작업 실행 시간에 미치는 영향을 측정하고, 사이트별 성능 차이를 정량화한다. 간단한 벤치마크 스위트를 통해 그리드 전반의 이질성을 드러내고, 향후 자원 스케줄링 및 최적화에 필요한 데이터를 제공한다.

상세 분석

그리드 컴퓨팅 환경은 전 세계에 분산된 수백 개의 계산 노드와 스토리지 시스템으로 구성되며, 각 사이트는 CPU 아키텍처, 메모리 용량, 운영체제 버전, 네트워크 대역폭 등에서 큰 차이를 보인다. 이러한 이질성은 동일한 작업이라도 사이트마다 실행 시간이 크게 달라지는 원인이 된다. 보고서는 ATLAS VO가 제공하는 공통 인증·작업 전송 인프라를 이용해, 표준화된 벤치마크 애플리케이션을 각 사이트에 배포하고 실행하였다. 벤치마크는 CPU 집약형(예: 히스토그램 생성), 메모리 집약형(예: 대규모 배열 연산), I/O 집약형(예: 파일 입출력) 세 가지 워크로드를 포함한다. 각 워크로드는 동일한 입력 데이터를 사용해 재현성을 확보했으며, 실행 전후에 CPU 사용률, 메모리 피크, 디스크 쓰기/읽기 속도, 네트워크 전송량 등을 로그로 수집하였다.

수집된 메트릭을 기반으로 사이트별 평균 실행 시간과 표준 편차를 계산했으며, 이를 히스토그램과 박스플롯으로 시각화하였다. 결과는 몇몇 최신 CPU와 SSD 스토리지를 갖춘 사이트가 평균 30 %~50 % 빠른 반면, 오래된 하드웨어와 제한된 네트워크 대역폭을 가진 사이트는 동일 작업에서 2배 이상 오래 걸리는 것을 보여준다. 특히 I/O 집약형 작업에서 스토리지 계층의 차이가 전체 실행 시간에 가장 큰 영향을 미쳤으며, 네트워크 지연은 데이터 전송이 빈번한 작업에서 성능 저하 요인으로 작용하였다.

또한, 보고서는 벤치마크 결과를 ATLAS 작업 스케줄러(HTCondor)와 연계해, 사이트 선택 정책에 성능 정보를 반영하는 방안을 제시한다. 예를 들어, CPU 집약형 작업은 고성능 CPU를 보유한 사이트에 우선 할당하고, I/O 집약형 작업은 SSD 기반 스토리지를 제공하는 사이트에 매핑함으로써 전체 그리드 처리량을 15 % 이상 향상시킬 수 있음을 시뮬레이션을 통해 입증하였다. 이러한 접근은 자원 활용 효율을 높이고, 사용자 대기 시간을 감소시키는 데 기여한다.

마지막으로, 보고서는 정기적인 벤치마크 수행의 필요성을 강조한다. 그리드 인프라가 지속적으로 확장·업그레이드됨에 따라 성능 프로파일이 변동하기 때문에, 최신 데이터를 기반으로 스케줄링 정책을 동적으로 조정해야 한다는 점을 강조한다.