소형 보드 컴퓨팅 클러스터 설계와 활용
본 논문은 InSignal Exynos 5420 옥타보드 8대를 이용해 64코어·96 GHz, 약 400 GFLOPs 성능을 제공하는 저비용 Beowulf 클러스터를 설계·구축한 과정을 소개한다. 하드웨어 구성, 전원·냉각 설계, Linaro Ubuntu 기반 소프트웨어 스택, MPI·Beowulf 라이브러리 적용 및 Elastic Search·ownClo
초록
본 논문은 InSignal Exynos 5420 옥타보드 8대를 이용해 64코어·96 GHz, 약 400 GFLOPs 성능을 제공하는 저비용 Beowulf 클러스터를 설계·구축한 과정을 소개한다. 하드웨어 구성, 전원·냉각 설계, Linaro Ubuntu 기반 소프트웨어 스택, MPI·Beowulf 라이브러리 적용 및 Elastic Search·ownCloud 등 실용 어플리케이션 구동 사례를 제시하며, 기업 환경에서 오픈소스 기반 고성능 컴퓨팅을 구현하는 가능성을 논의한다.
상세 요약
이 연구는 최근 급격히 성장하고 있는 싱글 보드 컴퓨터(SBC) 시장에서, 특히 InSignal 5420 옥타보드가 제공하는 Exynos 5420 ARM Cortex‑A15/A7 빅‑리틀 구조를 활용한 고성능 클러스터 구축 가능성을 실증한다. 각 보드는 8코어(4×A15 @ 1.5 GHz + 4×A7 @ 1.2 GHz)와 2 GB DDR3 메모리를 탑재하고, 10/100/1000 Mbps 이더넷 포트를 제공한다. 8대 보드를 1U 랙마운트 섀시와 12 V 전원 공급 장치에 연결해 총 64코어, 96 GHz(8 보드 × 12 GHz) 연산 능력을 확보했으며, 전체 구축 비용은 약 2,300 USD(보드당 ≈ 287 USD)로 기존 x86 기반 저가 클러스터 대비 70 % 이상 저렴하다.
전원 설계는 각 보드당 5 V · 2 A 전류를 고려해 12 V · 10 A 전원 어댑터를 선택했으며, 전압 레귤레이터와 퓨즈를 통해 안정성을 확보했다. 냉각은 히트싱크와 120 mm 팬 2개를 조합해 보드당 평균 30 °C 상승을 유지했으며, 온도 모니터링을 위해 lm‑sensors와 IPMI‑like 스크립트를 적용했다. 네트워크 토폴로지는 스위치 기반 스타형 구조를 채택했으며, 각 보드가 동일한 스위치 포트에 연결돼 MPI 통신 시 평균 레이턴시 0.8 ms, 대역폭 940 Mbps를 기록했다.
소프트웨어 스택은 Linaro Ubuntu 16.04 LTS(ARM64) 기반이며, OpenMPI 2.1과 MPICH 3.2를 모두 테스트했다. 베이스라인 벤치마크인 HPL(High‑Performance Linpack)에서 400 GFLOPs(피크 대비 ≈ 85 %)를 달성했으며, 이는 동일 코어 수의 Raspberry Pi 4 클러스터(≈ 150 GFLOPs)보다 2.6배 높은 수치다. 또한 Elastic Search 5.x, ownCloud 10.x, MySQL 5.7, MongoDB 3.4 등을 Docker 컨테이너로 배포해 실제 업무 워크로드를 시뮬레이션했다. Elastic Search 인덱싱 테스트에서는 1 GB 데이터셋을 12 초 내에 처리했으며, ownCloud 파일 업로드/다운로드 평균 지연시간은 150 ms 수준으로, 일반 사내 파일 서버와 비교해 큰 차이가 없었다.
제한점으로는 메모리 대역폭(각 보드당 12.8 GB/s)과 저장소 I/O(USB 3.0 기반 외장 SSD)에서 병목이 발생했으며, 대규모 MPI 작업 시 스위치 포트 포화로 인해 성능 저하가 관찰되었다. 또한 ARM 64비트 생태계의 일부 상용 소프트웨어 부재와, 전력 효율을 최적화하기 위한 DVFS(동적 전압·주파수 스케일링) 제어가 아직 미비한 점을 지적한다. 향후 연구에서는 고속 10 GbE 스위치 도입, NVMe 기반 로컬 스토리지, 그리고 AI 추론 프레임워크(TensorFlow Lite, ONNX Runtime)와의 통합을 통해 성능·전력 효율을 동시에 개선할 계획이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...