엣지와 디바이스 가속기 선택을 위한 모델 기반 비교
초록
본 논문은 가속기가 탑재된 모바일 디바이스와 엣지 서버 양쪽의 처리 능력을 정량적으로 비교한다. 큐잉 이론을 활용해 온‑디바이스와 엣지 오프로드 각각의 평균 응답 시간을 폐쇄형식으로 유도하고, 다양한 네트워크 지연, 멀티테넌시, 워크로드 특성을 반영한 실험을 통해 모델 정확도를 2.2% 평균 절대 오차율로 검증한다. 또한, 도출된 식을 기반으로 적응형 자원 관리자를 구현해 동적 네트워크와 부하 변화에 따라 최적의 실행 위치를 자동 전환한다.
상세 분석
이 연구는 가속기 기반 컴퓨팅 환경에서 “오프로드가 항상 유리한가?”라는 기존의 직관에 도전한다. 저자들은 먼저 디바이스와 엣지 서버 각각을 독립적인 큐잉 시스템으로 모델링한다. 디바이스 측은 요청이 로컬 큐에 대기한 뒤, k dev 개의 가속기 코어에 병렬 배정되는 M/M/k 형태로 가정하고, 엣지 측은 네트워크 전송 지연(요청 전송 n req, 응답 전송 n res)과 네트워크 큐잉 지연(w net dev, w net edge)을 포함한 두 단계 큐잉 구조를 제시한다. 각각의 서비스 시간 s dev, s edge는 사전 프로파일링 혹은 신경망 기반 예측으로 얻으며, 이는 모델의 하드웨어 의존성을 명확히 드러낸다.
폐쇄형식 식 T_edge = w_net_dev + n_req + w_proc_edge + s_edge + w_net_edge + n_res 와 T_dev = w_proc_dev + s_dev 를 통해, 네트워크 대역폭, 전송 지연, 가속기 병렬도(k), 도착률 λ 등 파라미터가 어떻게 전체 지연에 기여하는지를 정량화한다. 특히, 멀티테넌시를 고려해 엣지 서버의 총 도착률을 Σλ_i 로 표현하고, 각 테넌트가 공유하는 k_edge 를 통해 서비스 레벨이 어떻게 감소하는지를 분석한다. 이때, 엣지의 대기 시간이 급격히 증가하면 온‑디바이스가 우세해지는 “성능 교차점”을 정확히 예측할 수 있다.
실험 부분에서는 Google Edge TPU, NVIDIA Jetson TX2, Orin Nano, A2 GPU 등 네 종류의 가속기를 조합해 다양한 워크로드(DNN, RNN, LLM)를 실행한다. 네트워크 조건은 5 ms100 ms RTT, 10 Mbps1 Gbps 대역폭을 변동시켜 시뮬레이션했으며, 엣지 서버는 1~8개의 동시 요청을 처리하도록 설정했다. 모델이 실제 측정값과 2.2% 평균 절대 오차율을 보였으며, 91.5%의 경우 ±5% 이내, 전 경우 ±10% 이내에 머물렀다. 이는 복잡한 실험 환경에서도 이론적 큐잉 모델이 높은 설명력을 가짐을 입증한다.
또한, 도출된 식을 활용해 적응형 오프로드 매니저를 설계했다. 매니저는 실시간으로 λ와 네트워크 RTT를 측정하고, 사전 학습된 서비스 시간 모델을 조회해 T_edge와 T_dev를 비교한다. 결과가 바뀔 경우 즉시 실행 위치를 전환함으로써, 네트워크 혼잡이 급증하거나 엣지 서버에 새로운 테넌트가 추가될 때도 지연을 최소화한다. 두 가지 사례 연구(네트워크 변동에 따른 실시간 AR 스트리밍, 멀티테넌시가 급증하는 스마트 시티 영상 분석)에서 매니저는 15~30% 수준의 평균 지연 감소를 달성했다.
핵심 인사이트는 다음과 같다. 첫째, 가속기 성능 차이가 클수록(예: 고성능 A2 vs 저전력 Edge TPU) 온‑디바이스와 엣지 간 교차점이 네트워크 지연에 크게 의존한다. 둘째, 엣지 멀티테넌시가 심해질 경우, 서비스 시간 자체는 빠르더라도 대기 시간이 급증해 온‑디바이스가 유리해진다. 셋째, 모델 기반 접근은 복잡한 머신러닝 기반 스케줄러와 달리 해석 가능하고, OS 수준에서 직접 적용 가능하다. 마지막으로, 이론적 모델이 실제 시스템에서 높은 정확도를 보였다는 점은 향후 다양한 가속기와 엣지 아키텍처에 대한 확장성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기