멀티 블록 접근 방식의 독립 마스터 노드 도입으로 공용 클러스터 성능 향상
초록
LIPI 공용 클러스터에 기존의 단일 마스터 노드 기반 멀티 블록 구조를 개선하여, 블록당 독립 마스터 노드를 배치하고 서비스·I/O 네트워크를 물리적으로 분리하였다. Gigabit‑LAN을 활용한 I/O 채널은 데이터‑집중형 작업에서 지연을 크게 감소시켰으며, 실험 결과는 기존 Fast‑Ethernet 기반 구조에 비해 라운드‑트립 시간이 2~3배 이상 향상됨을 보여준다.
상세 분석
본 논문은 공용 클러스터(LIPI Public Cluster, LPC)의 운영 효율성을 높이기 위해 기존의 ‘단일 마스터·다중 블록’ 구조를 재설계한 점을 중심으로 분석한다. 기존 구조에서는 모든 블록이 하나의 마스터 노드를 공유했으며, 이는 하드웨어 자원(스토리지 부재, 네트워크 대역폭)의 제약으로 인해 구현된 설계이다. 이러한 설계는 소규모 블록(수 개 노드)에서는 충분히 동작했지만, 데이터‑집중형 작업에서 마스터 노드가 I/O 병목 현상을 일으켜 전체 성능을 저하시켰다.
새로운 설계는 블록당 독립 마스터 노드를 두고, 마스터 노드와 사용자 간의 서비스 채널은 기존 Fast‑Ethernet(100 Mbps)으로 유지하면서, 데이터 전송 전용 I/O 채널을 Gigabit‑LAN(1 Gbps)으로 별도 구성한다. 서비스 서버는 웹·SSH·모니터링·공통 바이너리 저장소 역할을, I/O 서버는 NFS·NIS·사용자 홈 디렉터리 제공 및 대용량 데이터 교환을 담당한다. 물리적 네트워크 분리를 통해 데이터‑집중형 작업에서 발생하는 대량 트래픽이 서비스 채널에 영향을 주지 않으며, 각 블록이 자체 마스터를 통해 독립적으로 스케줄링·제어되므로 블록 간 간섭이 최소화된다.
성능 평가에서는 동일 사양의 4노드 블록 두 개를 동시에 운영하면서, LAM‑MPI 기반 ping‑pong 테스트를 수행하였다. 메시지 크기를 33 MB까지 늘렸을 때 Fast‑Ethernet에서는 지연이 급격히 증가하고 신뢰성이 떨어지는 반면, Gigabit‑LAN에서는 1 GB 규모까지 안정적인 전송이 가능했다. 또한 두 블록을 동시에 운용했을 때도 Gigabit‑LAN이 평균 라운드‑트립 시간을 2.5배 이상 단축함을 확인하였다. 이러한 결과는 마스터‑노드 분산과 네트워크 분리가 데이터‑집중형 워크로드에서 병목을 효과적으로 해소한다는 것을 실증한다.
하지만 논문에서는 동적 블록 전환(컨벤셔널 ↔ 독립) 메커니즘이 아직 구현되지 않았으며, 현재는 운영 시 하나의 모드만 선택한다는 제한이 있다. 향후 연구에서는 사용자 요청에 따라 자동으로 블록 유형을 전환하고, 블록 규모와 네트워크 자원을 실시간으로 최적화하는 알고리즘이 필요하다. 또한, 마스터 노드 자체가 고가용성(HA) 구성을 갖추지 않을 경우 단일 마스터 장애 시 해당 블록 전체가 중단될 위험이 존재한다. 이러한 점을 보완한다면, 공용 클러스터가 교육·연구 목적을 넘어 대규모 데이터 분석 플랫폼으로 확장될 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기