실시간 제어 및 모니터링 시스템을 활용한 리피 공개 클러스터 관리

실시간 제어 및 모니터링 시스템을 활용한 리피 공개 클러스터 관리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인도네시아 연구기관 LIPI의 공개 클러스터를 위한 실시간 제어·모니터링 시스템을 설계·구현한 내용을 다룬다. 병렬 포트와 마이크로컨트롤러를 이용해 전원, 온도, 전류 등을 원격으로 감시하고, 웹 기반 인터페이스로 사용자에게 제어 권한을 제공한다. 실시간 데이터에 기반한 자동 전원 차단 등 자율 제어 기능도 구현하였다.

상세 분석

논문은 LIPI Public Cluster가 일반적인 HPC 환경과 달리 ‘공개’라는 특수성을 갖는다 점을 강조한다. 즉, 외부 사용자가 임의로 노드를 할당받아 실험을 진행하므로, 전원·냉각·보안 관리가 기존 클러스터보다 더 정교하고 즉각적인 대응이 필요하다. 이를 해결하기 위해 저자는 두 단계의 하드웨어 구조를 제안한다. 첫 번째는 메인 서버와 병렬 포트(Parallel Port)를 통해 직접 I/O 신호를 주고받는 인터페이스이다. 병렬 포트는 레거시이지만, 저전압 디지털 신호를 다수(8비트) 동시에 전송할 수 있어 마이크로컨트롤러와의 동기화가 용이하고, 비용 면에서도 저렴하다. 두 번째는 각 노드에 배치된 ATmega328 기반 마이크로컨트롤러이다. 이 MCU는 온도 센서(DS18B20), 전류 센서(ACS712), 전원 스위치(릴레이) 등을 연결해 실시간 측정값을 수집하고, 병렬 포트로 전송하거나 서버의 명령을 받아 릴레이를 구동한다.

소프트웨어 측면에서는 웹 서버(Apache + PHP) 위에 대시보드 UI를 구현했으며, AJAX와 WebSocket을 활용해 1초 이하의 폴링 없이 실시간 데이터 스트리밍을 제공한다. 사용자 인증은 토큰 기반 JWT를 사용해 세션 탈취 위험을 최소화한다. 또한, 서버 측에 ‘자동 제어 엔진’이라 명명된 모듈을 두어, 온도가 사전 정의된 임계값을 초과하면 해당 노드의 전원을 차단하고 알림을 전송한다. 이 로직은 플러그인 형태로 구현돼 향후 전력 소비 최적화, 부하 분산 등 다양한 정책을 추가할 수 있다.

성능 평가에서는 20대 노드 구성에서 평균 응답 시간 120 ms, 온도 측정 오차 ±0.5 °C, 전류 측정 오차 ±2 %를 기록하였다. 비용 분석 결과, 동일 기능을 상용 IPMI 솔루션으로 구현할 경우 약 15배 이상의 비용이 발생함을 보여, 저비용·고효율 솔루션으로서의 가치를 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기