연합 AIaaS를 위한 고신뢰 네트워크 관리와 꼬리위험 보장
초록
본 논문은 다중 도메인 연합 환경에서 AI‑as‑a‑Service(AIaaS)의 엔드‑투‑엔드 꼬리 지연을 보장하기 위해, 도메인별 서명된 “Tail‑Risk Envelope”(TRE) 계약을 제안한다. TRE는 결정적 서비스 레이트·지연 보장과 확률적 손상 모델을 결합한 컴포저블 서술자이며, 확률적 네트워크 계산을 이용해 연쇄된 도메인 전체의 지연 위반 확률을 분석한다. 위험 예산을 도메인별로 분해하고, 테넌트 수준 예약·입장 제어를 통해 버스트 트래픽에 대한 격리를 제공한다. 런타임 텔레메트리를 활용한 감사 레이어는 극단 퍼센타일 성능을 추정하고, 각 도메인의 꼬리 위험을 귀속시켜 책임성을 확보한다. 시뮬레이션 결과, 과부하 상황에서도 p99.9 지연 목표를 높은 확률로 만족한다는 것이 입증된다.
상세 분석
이 논문은 AIaaS가 단순 데이터 전송을 넘어 모델 선택·배치·실행까지 포괄하는 서비스로 진화함에 따라, 통신 지연과 추론 지연이 결합된 복합적인 SLO(서비스 수준 목표)를 어떻게 보장할 것인가라는 핵심 문제에 접근한다. 기존 연구는 AI‑native 네트워크와 제로‑터치 관리 프레임워크를 제시했지만, 다중 도메인 연합 시 내부 스케줄링 정보나 큐 상태를 공개하지 못하는 현실적인 제약을 간과한다. 논문은 이러한 제약을 해결하기 위해 “Tail‑Risk Envelope”(TRE)이라는 계약 인터페이스를 도입한다. TRE는 (R, T)라는 결정적 레이트‑레터시 가드레일과 (κ, η)라는 확률적 손상 파라미터를 포함한다. 손상 과정 I(t,s)는 모멘트 생성 함수(MGF) 상한을 통해 지수 꼬리 bound를 제공하므로, 도메인 간의 서비스 곱셈(미니플러스 연산)에서도 꼬리 위험이 보존된다.
수학적으로는 테넌트 도착 흐름 A(s,t)이 (ρ, σ) MGF 제약을 만족한다는 가정 하에, 각 도메인의 서비스 S_d(s,t)와 결합해 전체 지연 W의 위반 확률 P{W>τ}≤ε를 지수 형태로 도출한다. 여기서 핵심은 “net margin” Δ=R−ρ−κ>0가 보장될 때만 유의미한 지연 보장이 가능하다는 점이다. 이 조건은 도메인별 예약 레벨을 조정함으로써 위험 예산을 할당하고, 테넌트별 예약량을 제한해 버스트 트래픽이 한 도메인에 집중되는 것을 방지한다.
연합 최적화 단계에서는 각 도메인의 TRE 파라미터와 테넌트의 (ρ, σ) 정보를 입력으로, 전체 지연 위반 확률을 제약조건으로 하는 선형/볼록 최적화 문제를 구성한다. 위험 예산 분해는 라그랑주 승수를 이용해 각 도메인이 담당해야 할 꼬리 위험 한도를 계산하고, 이를 기반으로 경로 선택·리소스 할당·우선순위 지정이 이루어진다.
감사 레이어는 실시간 텔레메트리 데이터를 수집해 실제 지연 분포를 추정하고, 부트스트랩·극값 이론을 적용해 신뢰구간을 제공한다. 추정된 꼬리 위험이 계약 파라미터와 차이가 발생하면, 도메인 간 계약 갱신·벌칙 부과 메커니즘이 작동한다. 이는 내부 상태를 노출하지 않으면서도 계약 위반에 대한 증거를 제공하는 “증거 기반 책임성”을 구현한다.
시뮬레이션에서는 패킷 수준 Monte‑Carlo 방식을 사용해 다중 도메인 연쇄와 상관된 버스트 트래픽을 모델링하였다. 결과는 입장 제어와 테넌트‑레벨 예약이 없을 때 p99.9 지연 위반률이 30% 이상 상승하는 반면, TRE 기반 계약과 위험 예산 할당을 적용하면 위반률이 5% 이하로 억제됨을 보여준다. 또한, 도메인 간 상관관계가 높은 경우에도 각 도메인의 꼬리 위험을 정확히 귀속시켜 책임 분배가 가능함을 입증한다.
이러한 기여는 AIaaS가 6G·멀티‑도메인 네트워크에서 상업화될 때, 서비스 제공자는 “꼬리 지연 보장”이라는 강력한 계약을 체결하고, 동시에 내부 운영 정보를 보호하면서도 신뢰성 있는 SLA 이행을 검증할 수 있는 실용적인 프레임워크를 제공한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기