SSD 기반 클라우드 스토리지 워크로드 통합·부하 균형 시스템 Serifos
초록
Serifos는 SSD 특성을 반영한 선형 회귀 모델을 이용해 다중 워크로드의 평균 지연 시간을 예측하고, 예측 결과를 기반으로 클러스터 전체에 걸쳐 I/O 볼륨을 동적으로 재배치한다. 실험에서는 평균 예측 오차 10% 이하, 지연 시간 분산 82%·최대 평균 지연 52% 감소, SLO 개선률 평균 43%(읽기 32%, 쓰기 63%)를 달성했다.
상세 분석
Serifos는 기존 OpenStack Cinder의 “Available Capacity” 스케줄러가 용량만 고려하는 한계를 극복하기 위해, SSD 내부 동작(가비지 컬렉션, 오버프로비저닝 등)과 워크로드 특성(쓰기 비율, 블록 크기, 랜덤성)을 정량화한 6개의 하드웨어‑별 통합 모델을 구축한다. 모델링 단계에서는 660가지 조합의 synthetic workload을 Fio로 생성하고, 평균 지연을 종속 변수로 삼아 다중 선형 회귀와 다항 회귀를 적용하였다. p‑값 검정을 통해 쓰기 비율(W)과 블록 크기(S)가 가장 큰 설명력을 갖는 주요 변수임을 확인하고, 상호작용·제곱항은 일부 경우에만 유의미함을 보여 모델 복잡성을 최소화했다.
예측 정확도는 조정된 R²가 0.94~0.99에 달해 SSD 종류가 달라져도 일관된 성능을 보이며, 평균 예측 오차(MRE)가 5%~7% 수준으로 기존 SSD 단일 워크로드 모델(오차 20% 수준)보다 현저히 우수하다. 이러한 모델을 기반으로 한 부하 균형 알고리즘은 각 호스트의 현재 I/O 부하와 예측 지연을 실시간으로 계산해, 가장 높은 99th percentile 지연을 가진 볼륨을 지연이 낮은 호스트로 이동시키는 “latency‑aware migration” 전략을 사용한다. 이동 결정 시에는 마이그레이션 비용(네트워크 대역폭, 데이터 변동성)도 고려해, 성능 향상이 비용을 초과할 경우에만 실행한다.
실험은 Dell R430 서버에 Intel DC S3500·S3610 두 종류 SSD를 장착하고, 8‑depth I/O와 1분 지속 워크로드를 5라운드 반복 수행했다. 결과는 평균 지연 예측 오차가 10% 이하이며, 부하 균형 적용 후 전체 지연 분산이 82% 감소하고, 최대 평균 지연이 52% 감소했다. 특히 읽기 99th percentile 지연은 32% 개선, 쓰기 99th percentile는 63% 개선돼, 서비스 레벨 목표(SLO) 달성률이 크게 상승했다.
한계점으로는 모델이 워크로드의 시간적 변동성을 완전히 포착하지 못하고, 급격한 I/O 스파이크 시 예측 오차가 증가할 수 있다는 점이다. 또한, 현재는 블록 크기와 쓰기 비율만을 변수로 사용하므로, 복합적인 멀티스레드·멀티프로세스 환경에서의 상호작용을 추가 고려해야 한다. 향후 연구에서는 온라인 학습을 통한 모델 업데이트와, 네트워크 지연·스토리지 계층 간 상관관계를 통합한 전역 최적화 프레임워크를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기