에이전트 기반 다차원 자동스케일링: 엣지 스트림 처리 서비스의 실시간 최적화
📝 Abstract
Processing sensory data close to the data source, often involving Edge devices, promises low latency for pervasive applications, like smart cities. This commonly involves a multitude of processing services, executed with limited resources; this setup faces three problems: first, the application demand and the resource availability fluctuate, so the service execution must scale dynamically to sustain processing requirements (e.g., latency); second, each service permits different actions to adjust its operation, so they require individual scaling policies; third, without a higher-level mediator, services would cannibalize any resources of services co-located on the same device. This demo first presents a platform for context-aware autoscaling of stream processing services that allows developers to monitor and adjust the service execution across multiple service-specific parameters. We then connect a scaling agent to these interfaces that gradually builds an understanding of the processing environment by exploring each service’s action space; the agent then optimizes the service execution according to this knowledge. Participants can revisit the demo contents as video summary and introductory poster, or build a custom agent by extending the artifact repository.
💡 Analysis
**
1. 연구 배경 및 필요성
- 엣지 컴퓨팅의 자원 제약: 기존 클라우드‑기반 자동스케일링(Kubernetes 등)은 주로 리소스 추가에 초점을 맞추지만, 엣지 환경에서는 물리적 자원 증설이 불가능하거나 비용이 높다.
- 다중 서비스·다중 파라미터: 스트림 처리 파이프라인은 동일 디바이스 내 여러 컨테이너가 경쟁하며, 각 서비스마다 고유한 조정 가능한 파라미터가 존재한다(예: 모델 크기, 입력 해상도). 기존 스케일러는 이러한 다차원 탄력성을 지원하지 못한다.
- 자동화된 의사결정 필요: 동적 워크로드와 환경 변화에 대응하기 위해 에이전트가 스스로 행동 공간을 탐색하고 모델을 구축하는 메커니즘이 요구된다.
2. 핵심 기여
| 구분 | 내용 | 차별점 |
|---|---|---|
| 플랫폼 (MUDAP) | 서비스‑별 파라미터를 REST API와 시계열 DB로 노출·조정 | 기존 K8s‑형 자동스케일링이 제공하지 못하는 미세 파라미터 조정을 지원 |
| 에이전트 (RASK) | 회귀 기반 모델링 → 전역 최적화 솔버 | 샘플 효율성이 높아 Q‑learning 등 강화학습 대비 적은 탐색으로 높은 SLO 달성 |
| 시각화·데모 | 에이전트의 내부 모델, SLO 충족도, 파라미터 변화를 실시간 애니메이션으로 제공 | 연구 결과를 직관적으로 전달하고 재현성을 높임 |
| 오픈 아티팩트 | 코드·데모·포스터·영상 공개 (CC BY‑NC‑SA) | 커뮤니티가 쉽게 재현·확장 가능하도록 함 |
3. 방법론 상세
- 데이터 수집: 각 서비스 컨테이너는 메트릭(레이터시, CPU 사용량, 데이터 품질 등)을 시계열 DB에 저장.
- 회귀 모델링: 수집된 표형 데이터를 기반으로 다변량 선형/비선형 회귀를 학습, 파라미터 변화가 SLO에 미치는 영향을 추정.
- 전역 최적화:
- 입력: 모든 서비스의 회귀 모델, SLO 목표, 파라미터 경계(예: CPU 0.5‑2 core, 해상도 480p‑1080p).
- 목표: 가중합 SLO 만족도를 최대화하면서 전체 CPU 예산(8 core) 이하 유지.
- 솔버: 수치 최적화(예: SciPy
optimize.minimize) 사용.
- 주기적 실행: 10 s마다 메트릭 수집 → 모델 재학습 → 최적 파라미터 도출 → API 호출로 적용.
4. 실험 및 결과
- 시나리오: QR 코드 인식, YOLOv8 비전, 포인트 클라우드 매핑 3개 서비스 동시 실행.
- 제한 조건: 전체 CPU 8 core, 각 서비스 파라미터에 사전 정의된 범위와 스텝.
- 성과:
- 탐색 단계(300 s) 후 SLO 충족률 56 % → 98 % 상승.
- 30 회의 인터벤션(실제 300 s)만에 샘플 효율성 입증.
- 이후 안정 단계에서 Pareto 최적 파라미터 유지, 변동성 최소.
- 비교: Q‑learning 기반 RL은 수백 회 이상의 탐색 필요, 수렴 속도 현저히 느림.
5. 강점
- 샘플 효율성: 회귀 기반 모델링은 적은 데이터로도 충분히 정확한 환경 모델을 구축.
- 다차원 탄력성: CPU와 서비스 파라미터를 동시에 최적화, 기존 리소스‑중심 스케일링을 넘어선 접근.
- 재현성·오픈소스: 아티팩트와 시각화 자료 제공으로 연구 커뮤니티가 손쉽게 검증·확장 가능.
- 실시간 시각화: 에이전트의 학습 과정과 의사결정을 직관적으로 보여줌으로써 이해도 향상.
6. 한계 및 개선점
| 항목 | 설명 | 제안 |
|---|---|---|
| 모델 복잡도 | 현재 회귀 모델은 선형/단순 비선형에 국한, 복잡한 비선형 상호작용을 충분히 포착하지 못할 수 있음 | 다층 퍼셉트론(MLP)·Gaussian Process 등 비선형 회귀 도입 |
| 스케일 | 실험은 3개의 서비스와 8 core 제한 환경에 국한 | 대규모 엣지 클러스터(다수 디바이스·다중 노드)에서 분산 최적화 검증 |
| 동적 워크로드 | 워크로드 변동이 비교적 단순(예: 요청량 증가) | 예측 기반 워크로드 모델(시계열 예측)과 결합해 사전 대비 가능 |
| 안전성·제어 | 파라미터 급격 변화 시 서비스 불안정 가능 | 제어 이론 기반 제한(예: Rate Limiting, Smooth Transition) 적용 |
| 학습 비용 | 회귀 모델 재학습이 매 10 s마다 수행되는데, 서비스 수가 많아지면 연산 부하 증가 | 온라인 학습/증분 학습 기법 도입, 혹은 모델 캐싱 전략 활용 |
7. 향후 연구 방향
- 멀티‑에이전트 협업: 여러 엣지 디바이스가 서로 정보를 교환해 전역 최적화를 수행하도록 확장.
- 구조 학습 자동화: 현재는 전문가 지식으로 변수 관계를 정의했지만, 베이지안 네트워크·인과 추론을 통해 자동으로 구조를 학습하도록 발전.
- 강화학습·모델 기반 RL 결합: 회귀 모델을 환경 모델로 활용하고, 정책 탐색은 Model‑Based RL로 수행해 탐색 효율을 더욱 높일 수 있음.
- 보안·프라이버시 고려: 엣지에서 실행되는 자동스케일러가 민감 데이터에 접근할 경우 데이터 보호 메커니즘(예: 차등 프라이버시) 적용 필요.
- 표준화: MUDAP API를 CNCF 표준(예: OpenTelemetry, OpenMetrics)과 연동해 다양한 오케스트레이션 툴과 호환성 확보.
8. 학술·산업적 파급 효과
- 학술: 다차원 자동스케일링이라는 새로운 연구 영역을 제시, 기존 리소스‑중심 스케일링 연구와 차별화된 파라미터‑중심 최적화 프레임워크 제공.
- 산업: 스마트 시티, 산업 IoT, 자율주행 등 리소스가 제한된 엣지 환경에서 실시간 서비스 품질을 보장하는 솔루션으로 활용 가능. 특히 서비스 레벨 목표(SLO) 기반 자동화는 SLA 관리 비용 절감에 직접적인 기여.
**
📄 Content
센서 데이터는 자율 주행[1]부터 스마트 시티[2]에 이르는 다양한 퍼베이시스(Pervasive) 애플리케이션을 구동하고 최적화하는 데 활용됩니다. 이러한 흐름은 데이터 소스에 가까운 곳에서 저지연 처리를 가능하게 하는 임베디드 디바이스와 엣지 서버의 연산 능력 향상에 의해 뒷받침됩니다. 처리 방식에 대한 구체적인 요구사항은 서비스 레벨 목표(Service Level Objectives, SLOs) 로 정의되며, 예를 들어 실시간 포인트 클라우드 매핑[3]과 같은 애플리케이션은 최대 허용 지연 시간을 명시할 수 있습니다. 그러나 엣지 서버의 자원은 한정되어 있고, 클라이언트의 수요는 시시각각 변동합니다. 따라서 여러 경쟁 클라이언트와 애플리케이션이 동시에 SLO를 만족시키기에 충분한 자원을 확보하지 못하는 상황이 빈번히 발생합니다.
SLO 달성을 보장하기 위해 Kubernetes[4] 와 같은 자동 스케일링 솔루션은 수요 변화에 따라 애플리케이션을 조정하는 데 특화되어 있지만, 기본 메커니즘은 추가 자원을 프로비저닝 하는 것입니다. 또한 연산을 인근 디바이스로 오프로드할 수 있다고 가정할 수도 없습니다[5]. 상황이 동적으로 변하고 사전에 정의된 메커니즘(예: 오프로드, 리소스 스케일링)에 의존할 수 없게 되면, 처리 서비스는 스스로 SLO 달성을 최적화할 행동을 찾아야 합니다.
이러한 유연하고 상황 인식 기반 자동 스케일링 으로의 전환을 촉진하기 위해 우리는 두 단계 접근법[6]을 제안했습니다.
- MUDAP (Multi‑Dimensional Autoscaling Platform) – 서비스 실행과 할당된 자원을 미세하게 조정할 수 있도록 지원합니다. 특히 머신러닝(ML) 모델 크기나 입력 텐서와 같은 서비스‑특정 파라미터를 동적으로 변경할 수 있습니다.
- RASK (Regression Analysis of Structural Knowledge) – 회귀 분석을 이용해 다양한 파라미터 할당이 SLO 달성에 미치는 영향을 해석하고, 최적의 스케일링 행동을 추론하는 스케일링 에이전트입니다.
두 구성요소가 결합되면 멀티‑다이멘셔널 탄력성(Multi‑dimensional elasticity)[7]이라 부르는, 상황에 따라 다양한 파라미터를 조정하는 유연한 처리 서비스를 구현할 수 있습니다. 즉, 덜 중요한 요소(예: 사용자 경험)를 희생해도 중요한 SLO(예: 지연 시간)를 유지할 수 있게 됩니다.
데모 개요
본 데모는 먼저 MUDAP 과 RASK 의 아키텍처를 소개하고, 이어서 세 가지 스트림 처리 서비스를 공동으로 실행하는 엣지 디바이스 상에서 스케일링 에이전트를 설계·운용하는 과정을 보여줍니다. 에이전트가 환경을 어떻게 이해하고, 내부 모델과 SLO 달성이 어떻게 동시에 개선되는지를 시각화합니다. 또한 고수준 아이디어를 빠르게 전달하기 위한 소개 포스터[8], 공개 URL에 배포된 데모 애플리케이션, 동영상 요약[9], 그리고 재현 가능한 아티팩트 저장소[10] 를 함께 제공합니다.
다음 섹션에서는 컨텍스트‑인식 자동 스케일링 을 위한 전체 아키텍처를 제시합니다. 두 핵심 컴포넌트인 MUDAP 과 RASK 가 어떻게 상호작용하는지를 단계별로 설명하고, RASK 에이전트의 내부 모델이 점점 정교해짐에 따라 의사결정이 어떻게 향상되는지를 시각화합니다.
MUDAP 플랫폼 (그림 1)
MUDAP 은 네 단계로 구성됩니다.
- 센서 데이터 스트리밍·버퍼링 – 비디오 프레임 등 센서 데이터를 인근 디바이스에 스트리밍하고 버퍼링합니다. 이 디바이스에서는 여러 컨테이너화된 처리 서비스가 동시에 실행됩니다.
- 데이터 처리 – 예를 들어 비디오 추론(inference) 작업이 수행됩니다.
- 처리 메트릭 지속적 수집·저장 – 서비스 실행 지연시간, 데이터 품질 등 서비스‑관측값과 CPU 제한량·메모리 사용량 등 할당된 리소스 정보를 시계열 데이터베이스에 기록합니다. 이 메트릭들은 서비스의 상태 공간(state space) 을 정의하며, 액션 스페이스(action space) 로 직접 조정 가능한 변수(예: 비디오 해상도·데이터 품질)와 구분됩니다.
- 스케일링 에이전트와 인터페이스 – 수집된 메트릭을 기반으로 정책을 생성하고, REST API 를 통해 서비스 구성과 컨테이너 파라미터를 조정합니다.
MUDAP 은 표 형식의 시계열 데이터를 생성 → 회귀 함수 학습 → 수치 최적화 솔버에 SLO·파라미터 경계 전달 → 전역 최적 파라미터 할당 의 파이프라인을 제공함으로써, 임의의 자동 스케일러(본 사례에서는 RASK) 가 손쉽게 적용될 수 있도록 합니다.
RASK 스케일링 에이전트 (그림 2)
RASK 는 세 단계에 걸쳐 동작합니다.
- 환경 모델링 – 시계열 데이터베이스에서 추출한 표 형식 메트릭과 도메인 지식(변수 간 관계)을 이용해 회귀 함수를 피팅합니다. 이를 통해 “데이터 품질을 높이면 추론 지연이 증가한다”와 같은 인과 관계를 학습합니다.
- 모델·SLO·경계 수집 – 디바이스에 배치된 모든 서비스에 대해 회귀 모델, 해당 서비스의 SLO, 파라미터 허용 범위를 수집합니다.
- 전역 최적화 – 수집된 정보를 하나의 목적 함수로 결합하고, 수치 최적화 솔버를 사용해 모든 서비스에 대한 파라미터 할당을 동시에 결정합니다. 최종 파라미터는 MUDAP 의 REST API 를 통해 적용됩니다.
이 구조를 활용하면 다중 서비스가 공동으로 존재하는 엣지 환경 에서도 자율적인 스케일링 에이전트가 전체 SLO 달성을 최적화할 수 있습니다. 데모에서는 에이전트가 어떻게 솔루션 공간을 탐색하고, 변수 관계에 대한 정확한 이해를 구축하는지를 상세히 보여줄 예정입니다.
데모 구성 및 진행 흐름
데모는 참가자가 직접 체험하고, 이후에도 재현·확장할 수 있도록 다양한 콘텐츠를 제공합니다. 아래 순서대로 진행하면 가장 효과적입니다.
1. 소개 포스터[8]
먼저 포스터를 읽어 문제 정의, 목표, 전체 아키텍처, 시각화 내용 을 파악합니다. 포스터는 자율 스케일링의 핵심 아이디어와 MUDAP·RASK 의 역할을 한눈에 보여주며, 참가자가 자유롭게 질문하거나 필요 시 다시 참고할 수 있도록 설계되었습니다.
2. 스케일링 에이전트 시각화 데모
(1) 실험 설정
- 대상 서비스: QR 코드 리더, Yolov8 기반 컴퓨터 비전(CV) 서비스, 포인트 클라우드(PC) 매퍼.
- 파라미터 및 제약: 각 서비스는 데이터 품질(예: 이미지 해상도)과 CPU 코어 할당량을 조정할 수 있으며, 전체 CPU 예산은 8코어로 제한됩니다. CV 서비스는 추가로 Yolov8 모델 크기(예: nano, small, medium, large)를 선택할 수 있습니다.
- 도메인 지식: “완료율(completion rate)”은 직접 설정할 수 없으며, 데이터 품질·CPU·모델 크기와 같은 다른 파라미터에 의해 결정됩니다. 이러한 관계는 에이전트에게 사전에 제공됩니다.
- SLO 및 가중치: 각 변수별 중요도에 따라 임계값과 가중치를 부여합니다(예: 지연 시간은 높은 가중치, 사용자 경험은 낮은 가중치).
실험은 총 600 초(실제 시연에서는 10배 가속된 60 초) 동안 진행됩니다.
- 전반부(0 ~ 300 s): 에이전트가 무작위 탐색을 통해 환경을 학습합니다.
- 후반부(300 ~ 600 s): 학습된 모델을 기반으로 최적 정책을 적용해 SLO를 최대화합니다.
에이전트는 10 초마다 메트릭을 수집·모델을 업데이트·정책을 재계산하는 사이클을 수행합니다.
(2) 시각적 애니메이션
그림 3은 데모 화면을 나타냅니다.
- 상단: 현재 실험 시간과 재생 제어(재생·일시정지·속도 조절)가 표시됩니다.
- 가속: 재생 속도는 ×10으로 가속되어 전체 시연이 60 초에 끝납니다.
- 열별 구성: 각 서비스별 출력 화면, SLO 달성 정도, 에이전트가 학습한 회귀 모델(파라미터와 완료율 사이의 관계) 등을 한눈에 확인할 수 있습니다.
공개 데모 애플리케이션[11]에 접속하면 실시간으로 에이전트의 진행 상황을 추적할 수 있습니다.
(3) 결과 분석
- 전반부: 300 초(실제 30 번의 인터벤션) 동안 에이전트가 환경을 탐색한 결과, 전역 SLO 달성률이 56 % → 98 % 로 크게 향상됩니다. 이는 최신 강화학습(RL) 기법(예: Q‑learning) 대비 샘플 효율성이 뛰어남을 보여줍니다.
- 후반부: 에이전트는 파레토 최적(front) 상의 파라미터 조합을 유지하며, 안정적인 고 SLO 달성을 지속합니다. 이 과정은 동영상에서도 확인할 수 있습니다.
3. 부가 자료
- 동영상 요약[9]: 포스터 기반 논문 방법론 설명과 시각화 데모 진행 과정을 담은 영상.
- 아티팩트 저장소[10]: CC BY‑NC‑SA 라이선스로 공개된 코드·데이터·컨테이너 이미지. 연구자는 이를 활용해 기존 환경을 재현하거나, 자신만의 스케일링 에이전트를 구현·비교할 수 있습니다.
결론
본 논문은 엄격한 자원 제한 하에서 컨텍스트‑인식 자동 스케일링 을 위한 프레임워크를 제시합니다. MUDAP 은 서비스‑특정 파라미터를 미세하게 노출하고, RASK 는 회귀 기반 구조적 지식을 활용해 전역 최적화를 수행합니다. 스케일링 에이전트는 엣지 디바이스 자체에서 실행되므로, 퍼베이시스 처리 서비스의 자율성과 내구성을 크게 향상시킵니다.
데모에서는 30 번 이하의 인터벤션 만으로도 정확한 환경 모델을 구축하고, 세 개의 공동 실행 서비스에 대해 **98 % 이상의 SL
이 글은 AI가 자동 번역 및 요약한 내용입니다.