실시간 시스템 결함 허용과 최조 마감 우선 통합

초록

본 논문은 안전‑중요 실시간 시스템에서 결함 허용 메커니즘과 EDF(최조 마감 우선) 스케줄링이 어떻게 상호 작용하는지를 분석한다. 하드웨어·소프트웨어·시간 중복을 통한 결함 복구 방법을 제시하고, 각 방법이 일정한 마감시간을 만족하면서도 시스템 전체의 신뢰성을 유지하도록 스케줄링 변형을 설계한다. 또한 RM과 비교하여 EDF 기반 설계가 제공하는 유연성과 효율성을 강조한다.

상세 요약

실시간 시스템은 외부 이벤트에 대한 응답을 정해진 시간 안에 보장해야 하며, 특히 안전‑중요 분야에서는 결함 발생 시에도 마감시간을 초과하지 않아야 한다는 이중 제약이 존재한다. 이러한 요구를 충족시키기 위해 전통적으로 하드웨어 중복(예: 듀얼·트리플 모듈), 소프트웨어 중복(예: 체크포인트·롤백, N‑버전 프로그래밍) 및 시간 중복(예: 재시도, 여유 시간 삽입) 세 가지 전략이 활용된다. 각각의 전략은 복구 비용, 오버헤드, 구현 복잡도 측면에서 차이를 보이며, 실시간 제약과의 트레이드오프를 정확히 평가해야 한다.

EDF 스케줄링은 가장 이른 마감시간을 가진 작업을 우선 실행함으로써 이론적으로 최적의 CPU 이용률을 달성한다. 그러나 결함 복구 과정에서 발생하는 추가 실행 시간(복구 코드, 재시도 등)은 작업의 실제 실행시간을 증가시켜 마감시간 초과 위험을 높인다. 따라서 결함 허용 메커니즘을 EDF와 결합할 때는 다음과 같은 핵심 문제가 대두된다. 첫째, 복구 작업 자체를 독립적인 작업으로 모델링하고, 그에 대한 마감시간을 사전에 할당함으로써 스케줄러가 복구 시점에도 올바른 우선순위를 유지하도록 해야 한다. 둘째, 시간 중복을 활용할 경우 여유시간을 미리 계산해 두고, 결함 발생 시 해당 여유시간 내에서 재시도를 수행하도록 설계한다. 이는 시스템이 정상 상태에서 여유시간을 충분히 확보하도록 하는 사전 분석이 필수적이다. 셋째, 하드웨어·소프트웨어 중복을 동시에 적용할 경우 복구 경로가 중복된 작업들 간에 우선순위 역전(priority inversion) 현상을 일으킬 수 있다. 이를 방지하기 위해 우선순위 상속(priority inheritance) 혹은 상한 우선순위 제한 기법을 도입해야 한다.

논문은 이러한 문제들을 해결하기 위한 구체적인 스케줄링 변형을 제안한다. 예를 들어, 복구 작업을 ‘긴급 복구 작업(critical recovery)’과 ‘비긴급 복구 작업(non‑critical recovery)’으로 구분하고, 전자는 기존 작업보다 높은 우선순위를 부여해 마감시간을 보장한다. 또한, 시간 중복을 적용할 때는 작업의 WCET(최악 실행시간)에 복구 오버헤드를 포함한 ‘확장 WCET’를 사용해 스케줄러가 초기 할당 단계에서 충분한 여유를 확보하도록 한다. 이러한 접근은 기존 EDF의 스케줄링 가능성(schedulability) 분석에 복구 오버헤드와 여유시간을 추가하는 형태로 수학적 모델링된다. 결과적으로, 제안된 방법은 결함 발생률이 일정 수준 이하인 경우에도 시스템 전체의 마감시간 위반률을 최소화하면서, RM 대비 약 15%~20%의 CPU 활용 효율 향상을 달성한다는 실험 결과를 제시한다.

초록

상세 요약

📜 논문 원문 (영문)