빅데이터와 고성능 컴퓨팅 로그 분석의 만남: 극한 규모에서 시스템 이해를 위한 확장 가능 접근법

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Big Data Meets HPC Log Analytics: Scalable Approach to Understanding Systems at Extreme Scale
  • ArXiv ID: 1708.06884
  • 발행일: 2017-08-24
  • 저자: Byung H. Park, Saurabh Hukerikar, Ryan Adamson, Christian Engelmann

📝 초록 (Abstract)

현재의 고성능 컴퓨팅(HPC) 시스템은 건강 모니터링을 위해 다양한 계층에서 상당히 통합되어 있으며, 성능 카운터 및 리소스 사용 데이터를 수집합니다. 대부분의 구성 요소는 비정상 이벤트에 대한 정보를 보고하며, 이러한 시스템 활동과 이벤트 정보는 모니터링 및 분석을 위해 로그됩니다. 대규모 HPC 설치에서는 다양한 유형의 로그 데이터가 생성되며, 이들 로그 데이터는 전체적으로 분석하고 상호 연관성을 찾아내면 시스템 건강 상태에 대한 자세한 정보와 실패 원인, 애플리케이션과 시스템 간의 상호 작용을 분석하는 데 유용한 통찰력을 제공할 수 있습니다. 그러나 HPC 로그 데이터를 처리하려면 시스템 스택의 여러 계층에서 하드웨어와 소프트웨어 구성 요소에 대한 깊은 이해가 필요합니다. 또한 대부분의 로그 데이터는 구조화되지 않고 양이 많아, 사용자와 관리자가 수동으로 검사하는 것이 더 어려워집니다. HPC 시스템의 규모와 복잡성이 급속히 증가함에 따라 로그 데이터 처리는 빅데이터 도전 과제가 되고 있습니다. 이 논문에서는 분산 NoSQL 데이터베이스 기술을 기반으로 하는 HPC 로그 데이터 분석 프레임워크를 소개하며, 이를 통해 확장성과 고 가용성을 제공하고 Apache Spark 프레임워크로 메모리 내에서 빠른 처리가 가능합니다. 이 분석 프레임워크는 시스템 관리자와 최종 사용자가 필요한 통찰력을 얻을 수 있도록 다양한 정보를 추출할 수 있습니다.

💡 논문 핵심 해설 (Deep Analysis)

This paper discusses the methods for analyzing log data generated by high-performance computing (HPC) systems. HPC systems are heavily instrumented at multiple layers, generating logs that contain crucial information about abnormal events and resource usage. The vast amount of unstructured log data makes manual analysis difficult, which is where this research comes in. By leveraging a distributed NoSQL database technology like Cassandra and the Apache Spark framework for rapid in-memory processing, the authors have developed an analytics framework that enables comprehensive storage, retrieval, and analysis of HPC logs. This framework allows users to track system activity and performance, visualize data, and gain insights into the causes of failures and their impact on application performance.

The paper details how this framework was applied to analyze log data from Oak Ridge National Laboratory’s Titan supercomputer, providing valuable insights into system behavior and faults. The significance of this work lies in its ability to handle the increasing scale and complexity of HPC systems, offering a scalable solution for processing massive volumes of monitoring and log data that would otherwise be impractical to analyze manually.

📄 논문 본문 발췌 (Translation)

**소개** 로그 데이터는 고성능 컴퓨팅(HPC) 시스템의 사용과 시스템 오류를 해결하는 데 중요한 역할을 합니다. 오늘날의 HPC 시스템은 성능 카운터와 리소스 사용량 데이터를 수집하여 건강 모니터링을 위해 각 계층에서 상당히 통합되어 있습니다. 대부분의 구성 요소는 비정상 이벤트에 대한 정보, 예를 들어 중요 조건, 오류 및 고장과 같은 내용을 보고합니다. 이러한 시스템 활동과 이벤트 정보는 모니터링 및 분석을 위해 로그됩니다. 대규모 HPC 설치에서는 다양한 유형의 로그 데이터가 생성되며, 예를 들어 작업 로그에는 애플리케이션 실행 기록, 할당된 리소스 크기, 사용자 정보와 종료 상태 등이 포함됩니다. 신뢰성, 가용성 및 서비스 가능성(RAS) 시스템 로그는 다양한 하드웨어 및 소프트웨어 센서에서 데이터를 파생하며 온도 센서, 메모리 오류 및 프로세서 사용률과 같은 내용을 포함합니다. 네트워크 시스템은 링크 대역폭, 혼잡 및 라우팅과 링크 고장에 대한 정보를 수집하고, 입출력(I/O) 및 저장 시스템은 성능 특성뿐만 아니라 감지된 저하 및 오류에 대한 로그를 생성합니다.

HPC 로그 데이터는 공간적 및 시간적 차원에서 철저히 분석되면 실패의 발생을 탐지하고 그 원인을 이해하며, 지속적인 시간과 공간 패턴을 식별하고 오류 전파를 추적하며 시스템 신뢰성 특성을 평가할 수 있습니다. 그러나 HPC 로그 데이터는 여러 모니터링 프레임워크 및 센서에서 파생되며 본질적으로 구조화되어 있지 않습니다. 대부분의 로그 항목은 쉽게 이해되지 않도록 설계되어 있으며, 일부 항목에는 숫자 값이 포함될 수 있고 다른 항목에는 암호문 텍스트, 16진수 코드 또는 오류 코드가 포함될 수 있습니다. 이러한 데이터를 분석하고 상관관계를 찾는 데 두 가지 주요 어려움이 있습니다: 첫째, RAS 로그의 양이 많아 수동 검사가 어렵습니다; 그리고 둘째, 각 하위 시스템 로그에서 생성된 로그 데이터의 비구조화 된 성격과 독특한 속성은 기록된 이벤트 간에 암묵적인 상관 관계를 식별하는 또 다른 차원의 어려움을 추가합니다. 결과적으로 실제로는 로그 데이터 사용이 알려진 텍스트 패턴의 단순 발생 탐지로 제한됩니다.

HPC 시스템의 규모와 복잡성이 계속 증가함에 따라 모니터링 및 로그 데이터의 저장, 검색 및 종합적인 분석은 중요한 과제입니다. 미래의 극단적 수준의 HPC 시스템에서는 대량의 모니터링 및 로그 데이터로 인해 수동 검사와 분석이 불가능하며 따라서 데이타 분석 도전 과제를 제기합니다. 이러한 과제에 대응하기 위해 로그 및 모니터링 데이터 처리를 위한 확장 가능한 방법이 필요합니다. 이를 위해서는 플렉시블한 스키마 기반의 대규모 분석을 지원하고 낮은 지연 시간과 고성능 분산 데이터 프로세싱 프레임워크를 통해 시스템 데이터에 대한 배치, 실시간 및 고급 분석을 지원할 수 있는 확장 가능하고 고 가용성을 제공하는 데이터베이스 기술을 사용해야 합니다.

본 논문에서는 다양한 연구자와 엔지니어들에게 HPC 로그 데이터 분석 능력을 제공하기 위해 설계된 확장 가능한 HPC 시스템 데이터 분석 프레임워크를 소개합니다. 이 프레임워크는 NoSQL 분산 데이터베이스인 Cassandra를 사용하여 높은 처리량 읽기/쓰기 작업을 위한 확장 가능하고 빠른 반응 속도의 백엔드를 구현하며, Apache Spark로 대용량 시스템 데이터에 대한 신속한 분석을 지원합니다. 프레임워크는 사용자가 시스템 활동과 성능을 추적하고 데이터를 시각화할 수 있는 웹 기반 그래픽 인터랙티브 프런트엔드 인터페이스를 제공합니다. 이 프레임워크를 통해 사용자는 특정 시스템 이벤트, 고장, 애플리케이션 실행 및 리소스 사용과 겹치는 공간-시간 이벤트 공간을 탐색하고 통계적 특징을 추출하며 지속적인 행동 패턴을 식별할 수 있습니다. 최종 사용자는 또한 자신의 애플리케이션이 실행되는 동안 발생하는 시스템 이벤트와 공유 리소스에 대한 경쟁 상태의 트렌드를 시각적으로 검사할 수 있습니다. 이러한 분석을 통해 사용자는 성능 이상의 원인을 찾고 다양한 시스템 행동이 애플리케이션 성능에 미치는 영향에 대해 더 깊은 통찰력을 얻을 수 있습니다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키