적대적 작업 주입 하에서 종속 태스크 시스템 안정성
본 논문은 서버 집합에서 실행되는 종속적인 태스크들로 구성된 작업을 모델링한 ‘Adversarial Job Queueing(AJQ)’을 제안한다. 적대적이지만 각 서버에 과부하를 주지 못하도록 제한된 적을 가정하고, 다양한 스케줄링 정책과 의존 구조에 따라 시스템이 안정(대기 작업 수가 유한)하거나 불안정(무한히 증가)할 조건을 분석한다. 특히 피드‑포워드 의존 구조에서는 모든 정책이 안정적이며, LIS와 같은 정책은 일정한 주입률 이하에서 안…
저자: Vicent Cholvi, Juan Echag"ue, Antonio Fern
본 논문은 서버 집합 S 위에서 실행되는 작업들을 모델링하기 위해 ‘Adversarial Job Queueing(AJQ)’이라는 새로운 프레임워크를 제안한다. 기존의 Adversarial Queuing Theory(AQT)는 패킷 단위의 독립적인 흐름을 다루었지만, 실제 클라우드·엣지 환경에서는 하나의 서비스 요청이 여러 개의 상호 의존적인 태스크로 분해되어 서로 다른 서버에서 순차·병렬로 실행된다. 이를 반영하기 위해 저자는 각 작업 K 를 유한 집합 K of tasks 와, 각 태스크 k_i 에 대해 (1) 실행 서버 s_{K,i} , (2) 처리 시간 t_{K,i} > 0, (3) 활성화 지연 d_{K,i} ≥ 0, 그리고 (4) ‘feasibility function’ f_K : K → P²(K) 을 부여한다. f_K(k_i)는 여러 개의 ‘feasibility set’ A₁,…,A_{ℓ_i} 를 반환하며, 각 A_x는 k_i가 실행 가능해지기 위해 동시에 완료되어야 하는 선행 태스크들의 집합이다. 따라서 AND‑dependency는 하나의 A_x에 여러 태스크가 포함되는 형태이고, OR‑dependency는 여러 A_x 중 하나만 만족하면 되는 형태가 된다.
작업이 시스템에 주입될 때, 초기 태스크(∅ ∈ f_K(k_i)인 경우)는 즉시 ‘feasible’ 상태가 되며, 활성화 지연 d_{K,i} 만큼 대기 후에 ‘active’ 상태가 된다. 이후 스케줄링 정책 P 에 따라 서버의 무한 버퍼에 대기 중인 active 태스크 중 하나가 선택되어 처리된다. 작업이 완전히 완료되면 그 작업에 속한 모든 태스크는 시스템에서 사라진다.
논문은 먼저 ‘doability’ 개념을 정의한다. 모든 태스크에 레이어 λ(K,i) 를 할당할 수 있으면 작업을 ‘doable’이라 부른다. 레이어는 초기 태스크를 1층으로 두고, 이전 레이어의 모든 태스크가 완료될 때 비로소 다음 레이어가 활성화되는 방식으로 순차적으로 정의된다. 레이어 할당이 불가능한 경우(예: 순환 의존) 작업은 절대로 완료될 수 없으며, 이는 다항시간 알고리즘으로 검증 가능하다. Proposition 1은 단일 작업이 주입되고 스케줄링 정책이 work‑conserving(서버가 idle 상태가 아니면 항상 대기열의 어떤 태스크를 처리)일 때, 작업이 doable이면 반드시 완료된다는 것을 증명한다.
다음으로 시스템 안정성(stability)을 논한다. 적대적 주입자는 각 서버에 장기 평균 부하가 서비스율 μ 보다 크지 않도록 제한한다(‘bounded adversary’). 즉, 어떤 구간에서도 서버 s 에 대한 주입률 ρ_s ≤ μ_s 을 만족한다. 이 조건 하에서 시스템이 ‘stable’하다는 것은 모든 시점에 대기 중인 작업 수가 유한 상수 B 이하로 유지된다는 의미이다.
AJQ 모델에서 안정성을 보장하는 두 가지 주요 축을 제시한다. 첫 번째는 의존 구조가 ‘feed‑forward’인 경우이다. 즉, 작업의 스켈레톤 그래프 H_K 가 사이클을 포함하지 않고, 레이어 순서가 전방향으로만 흐르는 경우, 어떤 스케줄링 정책을 사용하더라도 ρ_s ≤ μ_s이면 전체 시스템은 안정한다. 이는 기존 AQT에서 알려진 결과를 작업‑레벨 의존성까지 확장한 것으로, 복잡한 서비스 체인이나 마이크로서비스 파이프라인에서도 안정성을 보장한다는 실용적 의미를 가진다.
두 번째는 스케줄링 정책 자체의 특성이다. 저자는 AQT에서 불안정으로 알려진 정책들을 AJQ에 그대로 매핑함으로써 동일한 불안정성을 전이시킬 수 있음을 보인다. 반면, LIS(Longest‑In‑System)와 같이 오래된 태스크에 우선순위를 부여하는 정책은, 각 태스크의 최대 처리시간 T_max 와 최대 활성화 지연 D_max 를 고려한 주입률 한계 ρ < 1/(T_max + D_max) 이하에서 안정성을 유지한다. 이는 작업당 다수의 태스크가 존재하더라도, 전체 시스템이 유한 대기열을 유지할 수 있음을 의미한다.
또한, 일부 AQT에서 안정적인 정책이라도 AJQ에서는 불안정해질 수 있음을 사례로 제시한다. 이는 태스크 간 의존성이 특정 서버에 일시적인 폭주를 일으키고, 그 결과 전체 시스템에 병목이 발생하기 때문이다. 따라서 AJQ에서는 스케줄링 정책 선택뿐 아니라 의존 구조 설계가 안정성 확보에 핵심적인 요소가 된다.
논문의 마지막 부분에서는 모델의 적용 가능성을 논한다. NFV 환경에서 서비스 체인, 오스모틱 컴퓨팅에서 마이크로서비스 오케스트레이션, 그리고 MapReduce와 같은 데이터 처리 파이프라인 모두 AJQ 모델로 표현 가능하며, 제시된 안정성 조건을 통해 SLA 보장을 위한 최악 상황 분석이 가능함을 강조한다.
요약하면, 본 연구는 작업‑레벨의 복합 의존성을 정형화한 AJQ 모델을 도입하고, 피드‑포워드 의존, 스케줄링 정책, 적대적 주입률 사이의 정량적 관계를 분석함으로써, 현대 분산 시스템에서 최악 상황 하에서도 서비스 품질을 보장할 수 있는 이론적 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기