실시간 엣지 AI를 위한 기반 모델의 동적 분할·배치 최적화
초록
본 논문은 대규모 기반 모델(Foundation Model)의 레이어를 정적이 아닌 런타임에 동적으로 재분할하고, 각 파티션을 이질적인 엣지·클라우드 노드에 최적 배치하는 프레임워크를 제안한다. 지연, 자원 활용도, 프라이버시 제약을 비용 함수에 포함한 제약 최적화 모델을 정의하고, 실시간 모니터링·용량 프로파일링·재분할 알고리즘을 통해 6G MEC 환경에서 적응형 분할 추론을 구현한다.
상세 분석
이 논문은 차세대 6G 네트워크와 MEC(Multi-access Edge Computing) 환경에서 대규모 언어 모델(LLM) 등 기반 모델을 실시간으로 서비스하기 위한 핵심 과제로 “정적 분할의 비효율성”을 지적한다. 기존의 Distributed Split Inference(DSI) 방식은 사전에 정의된 레이어 경계와 고정된 배치를 사용해 네트워크 지연 변동, 노드 과부하, 프라이버시 정책 변화에 대응하지 못한다. 저자들은 이를 해결하기 위해 모델 레이어 자체를 런타임에 재구성할 수 있는 두 축, 즉 **분할(partitioning)**과 **배치(placement)**를 동시에 최적화하는 프레임워크를 설계한다.
프레임워크의 핵심은 다음과 같다. 첫째, 각 엣지·클라우드 노드의 CPU, GPU, 메모리, 네트워크 대역폭 등 실시간 용량 정보를 수집하는 Monitoring & Capacity Profiling(CP) 모듈을 두어 시스템 상태 C(t)를 지속적으로 업데이트한다. 둘째, **Adaptive Orchestrator(AO)**는 수집된 C(t)를 기반으로 비용 함수 Φ(x, C(t)) = α·L + β·U + γ·P 를 최소화하는 배치 행렬 x와 필요 시 새로운 분할 집합 S를 선택한다. 여기서 L은 전체 추론 지연(데이터 전송·연산 포함), U는 노드 간 자원 불균형, P는 프라이버시 위반 위험을 정량화한다. 셋째, Split Revision(SR) 단계에서는 기존 파티션을 세분화하거나 병합하는 탐색을 수행한다. 탐색 방법은 휴리스틱, 규칙 기반, 혹은 강화학습 기반 메타-옵티마이저 등으로 구현 가능하며, Ω라는 모든 유효 분할 스킴 집합에서 최적 S와 x를 도출한다. 넷째, **Reconfiguration Broadcast(RB)**는 새로운 파티션·배치를 대상 노드에 전파하고, 실행 파이프라인을 무중단으로 전환한다.
알고리즘 1은 모니터링 주기 Δt마다 EWMA 지연, 최대 이용률, 최소 대역폭 등 트리거 조건(Θ)을 평가하고, 조건이 만족되면 재배치 혹은 재분할을 수행한다. 특히 “쿨다운” 타임 T_cool을 도입해 과도한 재구성을 방지하고, 다중 트리거 상황에서는 먼저 배치 이동을 시도한 뒤 충분히 개선되지 않을 경우에만 분할 자체를 재설계한다. 이러한 설계는 (1) 지연 민감 애플리케이션에 대한 SLA 준수, (2) 노드 자원의 동적 균형, (3) 민감 데이터가 포함된 초기 레이어를 로컬에 고정함으로써 프라이버시 보호를 동시에 달성한다는 점에서 기존 Kubernetes, Ray Serve 등 컨테이너 기반 오케스트레이터가 제공하지 못하는 기능을 보완한다.
학술적 기여는 크게 네 가지로 요약된다. 첫째, 모델 그래프 수준에서의 동적 재분할을 공식화하고, 이를 실시간 최적화 문제로 변환한 점. 둘째, 지연·자원·프라이버시를 하나의 다목적 비용 함수에 통합한 설계. 셋째, 기존 워크로드 스케줄러와 차별화된 레이어‑단위 배치 결정을 가능하게 하는 모듈러 아키텍처. 넷째, 6G‑MEC 시나리오를 염두에 둔 실용적인 구현 로드맵을 제시한 점이다. 다만, 현재 논문에서는 실제 대규모 LLM을 대상으로 한 실험 결과가 부족하고, 재분할 시 발생할 수 있는 모델 상태 동기화 비용이나 파라미터 전송 오버헤드에 대한 정량적 분석이 미흡하다. 향후 연구에서는 이러한 비용을 정밀히 모델링하고, 강화학습 기반 SR 알고리즘의 수렴 특성을 검증함으로써 프레임워크의 실운용성을 더욱 강화할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기