스코트그리드: LHC 시대를 위한 효율적인 분산 Tier‑2 구축
초록
스코트그리드는 영국의 Durham, Edinburgh, Glasgow에 분산된 Tier‑2 센터로, LHC 대비 하드웨어를 대폭 확장해 4 MSI2K와 500 TB 스토리지를 제공한다. 본 논문은 확장 과정에서 겪은 운영·관리상의 도전 과제와 이를 해결하기 위해 도입한 새로운 패브릭 관리, 모니터링, 원격 운영 절차 등을 상세히 소개한다. 특히 Edinburgh는 중앙 대학 자원으로 운영돼 다른 사이트와 다른 관리 모델을 적용했으며, 로컬·그리드 작업 모델 차이와 사용자 분석 요구에 대응하기 위한 스토리지·네트워크 최적화 방안을 제시한다. 최종적으로 ATLAS와 LHCb Monte Carlo 생산을 성공적으로 지원하고, 지역 물리학 커뮤니티와의 긴밀한 협력을 통해 전체 VO에 기여하고 있다.
상세 분석
ScotGrid는 영국 내 세 개의 물리학 연구소(Durham, Edinburgh, Glasgow)를 하나의 Tier‑2로 통합한 분산형 그리드 인프라이다. LHC 시작에 대비해 기존 규모를 10배 이상 확대했으며, 현재 제공하는 컴퓨팅 파워는 4 MSI2K, 스토리지는 500 TB에 달한다. 이러한 급격한 확장은 전통적인 중앙집중식 관리 모델로는 감당하기 어려운 복합적인 문제를 야기했다. 첫 번째 과제는 각 사이트의 운영 모델 차이였다. Glasgow와 Durham은 전담 인력이 “in‑house” 형태로 직접 관리하지만, Edinburgh는 대학 차원의 중앙 자원으로 운영돼 별도의 패브릭 관리 체계가 필요했다. 이를 해결하기 위해 Edinburgh에서는 Puppet 기반의 선언형 구성 관리와 자동화된 이미지 배포 파이프라인을 도입했으며, Glasgow와 Durham은 기존의 cfengine·Kickstart 조합을 유지하면서도 중앙 모니터링 서버와 연동하도록 개선하였다.
두 번째 과제는 모니터링·알림 체계의 통합이다. 기존에 각 사이트가 독립적으로 운영하던 Ganglia와 Nagios 인스턴스를 하나의 Grafana‑InfluxDB 대시보드로 집계함으로써 실시간 성능 지표와 장애 알림을 통합 관리했다. 특히 스토리지 I/O 병목 현상을 실시간으로 감지하고, 자동으로 QoS 정책을 적용하도록 스크립트를 작성해 사용자 분석 작업이 대규모로 몰릴 때도 서비스 가용성을 유지할 수 있었다.
세 번째는 로컬 사용자와 그리드 사용자 간의 작업 모델 차이였다. 로컬 사용자는 대기열이 짧은 PBS/Slurm 기반 클러스터에 직접 제출하는 반면, 그리드 사용자는 gLite WMS를 통해 작업을 전송한다. 두 시스템 간의 인증·권한 매핑을 일관되게 유지하기 위해 VOMS와 LDAP 연동을 강화하고, CE(Computing Element)와 SE(Storage Element) 사이의 데이터 전송을 XRootD와 FTS2로 표준화했다. 결과적으로 동일한 물리량(예: ATLAS 이벤트 파일)도 로컬·그리드 모두에서 동일한 경로와 접근 권한으로 처리할 수 있게 되었다.
네 번째는 사용자 분석(Analysis) 단계에서 발생하는 대역폭·스토리지 요구사항이다. Monte Carlo 생산 단계와 달리 분석 작업은 짧은 시간에 대량의 파일을 읽고 쓰는 I/O 패턴을 보인다. 이를 대비해 ScotGrid는 10 GbE 전용 백본을 구축하고, 스토리지 계층에 SSD 캐시 레이어를 도입했다. 또한, 데이터 복제 정책을 동적으로 조정해 인기 데이터는 여러 SE에 자동 복제하고, 덜 사용되는 데이터는 저비용 HDD 풀로 이동시켰다. 이러한 최적화는 분석 작업의 평균 응답 시간을 30 % 이상 단축시켰으며, 네트워크 포화 현상을 크게 완화했다.
마지막으로, 지역 물리학 커뮤니티와의 협업 모델을 강화했다. 각 대학의 물리학 그룹과 정기적인 워크숍을 개최하고, 사용자 요구사항을 직접 수집해 인프라 개선 로드맵에 반영했다. 이 과정에서 “사용자 중심 운영(User‑Centric Operations)”이라는 개념을 도입해, 서비스 수준 협약(SLA) 수준을 명확히 정의하고, SLA 위반 시 자동 티켓 생성 및 대응 프로세스를 구축했다. 이러한 전반적인 접근은 ScotGrid가 전체 VO에 안정적인 컴퓨팅 자원을 제공함과 동시에, 지역 연구자들에게도 실질적인 연구 지원을 제공하는 든든한 기반이 되었다.
댓글 및 학술 토론
Loading comments...
의견 남기기