LHC 광섬유 전용망 통합 모니터링 실전 적용

본 논문은 CERN의 LHC 실험 데이터를 전 세계 11개 데이터 센터로 전달하기 위해 구축된 광전용망(LHCOPN)의 다중 도메인·다계층 모니터링 시스템을 설계·구현하고, 실제 운영 경험을 통해 얻은 교훈을 제시한다.

저자: Patricia Marcu, David Schmitz, Wolfgang Fritz

LHC 광섬유 전용망 통합 모니터링 실전 적용
본 논문은 대규모 과학 실험인 CERN의 LHC가 생성하는 연간 15 PB 규모의 데이터를 전 세계 11개의 Tier‑1 데이터 센터에 전달하기 위해 구축된 LHC Optical Private Network(LHCOPN)의 통합 모니터링 시스템을 설계·구현하고, 실제 운영에서 얻은 인사이트를 상세히 기술한다. LHCOPN은 GÉANT, ESnet, Internet2, CANARIE 등 여러 학술 네트워크가 참여하는 다중 도메인 구조이며, Tier‑0(CERN)와 Tier‑1 센터를 연결하는 End‑to‑End(E2E) 광링크는 물리·데이터링크 계층(ISO/OSI 1‑2)에서 다양한 전송 기술(SDH/SONET, 네이티브 Ethernet, MPLS‑over‑Ethernet 등)으로 구현된다. 이러한 복합 환경에서 저자들은 세 가지 핵심 요구사항을 정의하였다. 첫째, 각 도메인의 독립적인 관리 체계와 보안 정책을 존중하면서도 전역적인 모니터링 데이터를 수집·통합해 하나의 시각화 뷰를 제공해야 한다. 둘째, 전통적인 IP‑계층 모니터링을 넘어 물리·데이터링크 계층까지 확장된 측정이 필요하며, 이기종 기술을 ‘UP, DEGRADED, DOWN, UNKNOWN’ 네 가지 추상 상태로 통합해야 한다. 셋째, 운영·관리 상태(예: Maintenance, Trouble‑Shooting, Under‑Repair 등)를 동일한 가중치 체계로 집계해 최악 상태가 전체 링크 상태를 지배하도록 해야 한다. 이를 해결하기 위해 기존 perfSONAR 프로토콜을 기반으로 LHCOPN 전용 ‘E2EMon’ 시스템을 개발하였다. 각 도메인에 배치된 Measurement Point(MP)는 Perl 스크립트로 구현되며, 로컬 NMS(Nagios, Cacti 등)에서 수집한 데이터를 OGF NMWG 스키마에 맞는 XML 형태로 변환한다. 변환된 XML은 링크의 운영 상태와 관리 상태를 추상화된 형태로 포함하고, 5분 주기로 중앙 서버에 전송된다. 중앙 서버는 전역 고유 E2E Link ID와 Demarcation Point(ID)를 이용해 서로 다른 도메인에서 제공된 링크 조각을 자동으로 ‘스티치’하고, 그래픽 UI에 연속된 링크와 갭을 시각화한다. 또한, 각 링크에 대한 운영·관리 상태를 별도 컬럼으로 표시해 유지보수 중인 링크가 불필요한 알람을 발생시키지 않도록 한다. 운영 경험에서는 다음과 같은 실질적인 교훈이 도출되었다. (1) 다중 도메인 간 시계 동기화가 필요 없도록 폴링 주기를 짧게(5분) 유지하면 데이터 일관성을 확보할 수 있다. (2) 일부 NREN이 ‘DEGRADED’ 상태를 보고하지 않아 실제 성능 저하를 놓치는 경우가 있었으며, 이를 보완하기 위해 iperf, OWAMP와 같은 액티브 측정 도구를 추가 도입하는 것이 유용하다. (3) 방화벽 및 보안 정책으로 인해 MP에 접근이 차단될 경우, 링크 재구성이 불완전해 UI에 ‘갭’ 아이콘이 표시되며, 이는 운영자가 즉시 확인하고 조치를 취할 수 있게 한다. (4) 관리 상태와 운영 상태를 별도로 집계함으로써 유지보수 기간 동안 불필요한 경보를 억제하고, 실제 장애 발생 시 빠르게 알림을 전달할 수 있었다. E2EMon은 현재 약 30개의 NREN에서 제공하는 200여 개의 E2E 링크를 실시간으로 모니터링하고 있으며, 평균 1분 이내에 전체 데이터를 수집·처리한다. 시스템은 웹 기반 UI와 RESTful API를 제공해 자동화된 장애 대응 워크플로우와 외부 분석 도구와의 연동을 지원한다. 또한, 추상화된 상태 모델을 통해 다양한 기술 스택을 사용하는 도메인 간의 데이터 통합을 가능하게 함으로써, LHC 데이터 전송에 필수적인 높은 가용성과 신뢰성을 보장한다. 결론적으로, 본 논문은 다중 도메인·다계층 네트워크의 복잡성을 효과적으로 추상화하고, 통합 모니터링을 통해 운영 효율성을 크게 향상시킨 사례를 제시한다. 향후 연구에서는 머신러닝 기반 이상 탐지, 자동 복구 메커니즘 및 보다 정교한 성능 지표(예: 지연, jitter) 통합을 목표로 시스템을 확장할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기