고가용성 클러스터와 재해복구를 위한 마코프 모델링

본 논문은 기업의 24/7 서비스 요구와 데이터 손실 금지 조건에 대응하기 위해, 고가용성(HA) 클러스터와 재해복구(DR) 시스템을 설계·평가하는 방법론을 제시한다. 먼저, 고가용성 클러스터의 기본 개념을 소개하고, 활성‑대기(active‑passive) 구조를 채택한 두 노드 시스템을 모델링한다. 활성 노드가 장애를 겪을 경우, 보호 스위치가 대기 노드로 역할을 전환하고, 두 노드 모두 고장 가능성이 존재한다는 점을 강조한다. 이러한 복합 고장·복구 메커니즘을 수학적으로 표현하기 위해, 저자는 반마코프 프로세스(SMP)를 기반으로 한 상태 전이 모델을 구축한다. 모델은 총 6개의 상태를 정의하며, 각 상태는 “두 노드 정상”, “보호 스위치 실패”, “대기 노드 고장 즉시 탐지”, “대기 노드 고장 지연 탐지”, “시스템 전체 다운” 등으로 구분된다. 고장률 λ(활성), λs(대기), 복구률 µ, 재시작률 β, 커버리지 확률 c, cs, 그리고 진단 주기 T를 파라미터로 사용한다. 특히 대기 노드의 잠재 고장은 일정 간격 T마다 수행되는 진단 루틴에 의해 탐지되며, 이 간격을 균등분포 U(0,T)로 모델링함으로써 전통적인 연속시간 마코프 체인(CTMC)과 차별화한다. 수식 전개에서는 상태별 평형 방정식(1)~(6)을 도출하고, 전체 확률 보존식(7)을 결합해 폐쇄형 해를 얻는다. 가용성은 정상 상태(1)와 대기 노드 고장 즉시 복구 상태(3), 대기 노드 고장 탐지 지연 상태(4), 그리고 대기 노드 고장 즉시 복구 상태(5)의 합으로 정의되며, 다운타임은 π2와 π6의 합으로 계산한다. 저자는 또한 CTMC 근사 모델을 제시하는데, 이는 진단 간격을 평균 T/2의 지수분포로 단순화한다. 두 모델의 다운타임 차이를 정량화하기 위해, µ=1/h, β=12/h, c=cs=0.9, λs=λ/4와 같은 파라미터 셋을 가정하고, µ/λ 비율을 변화시키며 그래프를 그렸다. 결과는 µ/λ가 클수록(복구가 빠를수록) SMP와 CTMC 사이의 차이가 감소함을 보여준다. 이는 복구 속도가 빠를수록 진단 주기의 비연속성이 가용성에 미치는 영향이 작아진다는 의미이다. 모델 검증을 위해 SHARPE 도구를 이용해 수치 해를 구하고, 폐쇄형 해와 비교하였다. 두 결과는 일치했으며, 이는 제시된 수식이 정확함을 입증한다. 또한, 논문은 실험 결과를 바탕으로 SMP 모델이 실제 시스템에서 진단 주기의 불연속성을 반영해 보다 현실적인 다운타임 예측을 제공한다는 결론을 내린다. 마지막으로, 고가용성 클러스터와 DR 솔루션을 구현할 때, 시스템 설계자는 복구 시간 µ와 재시작 시간 β를 최소화하고, 진단 주기 T를 적절히 설정함으로써 전체 가용성을 극대화할 수 있음을 강조한다.

고가용성 클러스터와 재해복구를 위한 마코프 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기