가상화 하둡 클러스터 성능 평가

초록

본 보고서는 단일 물리 서버 위에 하이퍼바이저를 이용해 저장소와 컴퓨팅을 분리한 가상화 하둡 클러스터를 구축하고, CPU 집약형 및 I/O 집약형 워크로드를 통해 성능을 비교·분석한다. 실험 결과 가상화 오버헤드, 네트워크 대역폭 제한, 스토리지 레이어 분리 방식이 전체 처리량과 지연시간에 미치는 영향을 정량적으로 제시한다.

상세 분석

이 연구는 가상화 환경에서 하둡 클러스터를 운영할 때 발생하는 구조적 비용을 정밀하게 측정하고자 하였다. 먼저, 하이퍼바이저(KVM) 위에 두 가지 기본 토폴로지를 구현하였다. 하나는 전통적인 통합형(Compute‑Storage 결합) 가상 머신이며, 다른 하나는 Compute 전용 VM과 Storage 전용 VM을 별도로 배치한 분리형 구조다. 두 토폴로지는 동일한 물리 CPU 코어 수(8코어), 메모리(32 GB), 디스크(I/O SSD) 자원을 공유하도록 설정하였다.

CPU‑집중 워크로드인 WordCount와 TeraSort를 실행했을 때, 통합형에서는 가상화 오버헤드가 상대적으로 낮아 전체 실행 시간이 5~8 % 정도 단축되었다. 반면, 분리형에서는 Compute VM과 Storage VM 간의 가상 네트워크 인터페이스(VNIC)를 통해 데이터가 이동하면서 추가적인 레이턴시가 발생했으며, 특히 Shuffle 단계에서 네트워크 병목이 두드러졌다. 이로 인해 동일 워크로드에서도 평균 12 % 정도의 성능 저하가 관찰되었다.

I/O‑집중 워크로드인 DFSIO와 Hive Benchmark를 적용한 결과는 흥미로운 반전이 나타났다. 분리형 구조에서는 Storage VM에 전용 SSD 디스크를 직접 할당하고, 파일 시스템 캐시 정책을 최적화함으로써 순수 디스크 쓰기/읽기 처리량이 18 % 이상 향상되었다. 반면, 통합형에서는 여러 VM이 동일 디스크를 공유하면서 I/O 스케줄링 충돌이 발생해 평균 처리량이 10 % 정도 감소하였다. 또한, 가상 네트워크를 통한 데이터 전송이 CPU 사용량을 증가시켰지만, 최신 가상 NIC 드라이버(e1000e)의 오프로드 기능을 활용하면 이 비용을 크게 완화할 수 있었다.

이러한 결과는 가상화 환경에서 하둡 클러스터를 설계할 때 워크로드 특성에 따라 저장소와 컴퓨팅 레이어를 어떻게 배치할지가 핵심 설계 포인트임을 시사한다. CPU‑집중 작업은 통합형이 유리하고, 대규모 I/O‑집중 작업은 저장소 전용 VM을 활용한 분리형이 효율적이다. 또한, 네트워크 대역폭과 가상 NIC 최적화, 디스크 할당 정책이 전체 성능에 미치는 영향을 무시할 수 없으며, 하이퍼바이저 레벨에서의 리소스 격리와 QoS 설정이 추가적인 성능 향상을 가능하게 한다.