클라우드 관리 통합 플랫폼
초록
본 논문은 가상화 환경과 모바일 클라우드를 포함한 이기종 인프라에서의 관리·모니터링 문제를 짚고, 물리·가상 자원을 동시에 제어할 수 있는 자동화 프레임워크 프로토타입을 제안한다. 기존 퍼블릭 클라우드(AWS EC2, Salesforce.com)의 한계—자동 서비스 탐지 부재, 인증 복잡성, 에이전트 비지원 시스템 모니터링 불가—를 극복하고, 구성·관계 추적, 이벤트 관리, 성능·가용성 측정 기능을 통합함으로써 운영자가 신속하고 효율적인 의사결정을 할 수 있도록 돕는다.
상세 분석
이 논문은 현재 퍼블릭 클라우드 서비스가 제공하는 관리 기능의 격차를 체계적으로 분석한다. 먼저 Amazon EC2는 온디맨드 자원 할당은 뛰어나지만, 서비스 자동 발견(Discovery) 메커니즘이 부족하고, API 호출 시 별도 인증 토큰을 관리해야 하는 복잡성을 지적한다. 이는 대규모 멀티테넌시 환경에서 운영 자동화를 저해한다. Salesforce.com은 SaaS 모델에 집중해 사용자 애플리케이션 레벨 모니터링은 제공하지만, 인프라 레이어(서버, 네트워크, 스토리지)의 실시간 상태를 외부에서 조회할 수 없는 구조적 제한이 있다. 특히 에이전트 설치가 불가능한 레거시 시스템이나 특수 하드웨어에 대한 모니터링이 전혀 지원되지 않는다.
논문은 이러한 문제를 해결하기 위해 이기종 자원을 통합 관리하는 ‘Hybrid Cloud Management Framework’를 설계한다. 핵심 설계 요소는 (1) 자동화된 자원 탐지 모듈로, 클라우드 API와 네트워크 스캔을 결합해 가상·물리 자원을 실시간으로 식별한다. (2) 통합 인증 및 권한 관리 계층을 도입해, 단일 인증 토큰으로 다중 클라우드와 온프레미스 시스템에 접근하도록 한다. (3) 에이전트리스 모니터링 방식을 적용해 SNMP, WMI, IPMI 등 표준 프로토콜을 활용, 에이전트 설치가 불가능한 장비에서도 상태 정보를 수집한다. (4) 구성·관계 데이터베이스를 구축해, 자원 간 의존성(예: VM ↔ 물리 호스트 ↔ 스토리지)과 변경 이력을 자동으로 기록한다. (5) 이벤트·알림 엔진은 정의된 임계값을 초과하거나 장애가 감지될 경우 실시간 알림을 전파하고, 자동 복구 워크플로우를 트리거한다.
프로토타입 구현에서는 오픈소스 도구(OpenStack Nova, Ceph, Prometheus)를 기반으로 하면서, RESTful API와 메시지 큐(Kafka)를 이용해 모듈 간 비동기 통신을 구현하였다. 실험 결과, 기존 AWS 관리 콘솔 대비 자원 탐지 속도가 평균 35% 빨라졌으며, 에이전트리스 모니터링을 통해 레거시 서버 20대의 CPU·메모리 사용량을 무손실로 수집했다. 또한, 구성 데이터베이스에 기록된 관계 정보를 활용해 장애 발생 시 영향을 받는 서비스 영역을 2분 이내에 파악할 수 있었다.
이러한 설계는 클라우드 운영자가 다중 클라우드·온프레미스 환경을 하나의 대시보드에서 관리하도록 함으로써, 인프라 가시성을 크게 향상시키고, 운영 비용과 다운타임을 감소시키는 실질적 가치를 제공한다. 논문은 향후 자동 스케일링, 정책 기반 보안 관리, AI 기반 이상 탐지와의 연계 방안을 제시하며, 프레임워크의 확장성을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기