라플라스 안정성 기반 스택헬버그 게임으로 저고도 경제 지원: 경량 프루닝 PPO 접근법
초록
**
본 논문은 저고도 경제(LAE) 환경에서 UAV가 항공 기지국으로 활용될 때, 통신 지연이 물리 제어 안정성에 미치는 영향을 라플라스 안정성 이론으로 정량화하고, 이를 기반으로 UAV‑사용자 간의 가격·자원 거래를 스택헬버그 게임으로 모델링한다. 또한, 에너지 제한이 있는 UAV에서 실시간으로 게임 균형을 찾기 위해 동적 구조 프루닝을 적용한 경량 PPO 알고리즘을 제안한다.
**
상세 분석
**
이 연구는 기존의 통신‑중심 자원 배분 방식을 넘어, Sensing‑Communication‑Computing‑Control(SC³) 폐루프를 명시적으로 모델링한다는 점에서 혁신적이다. 라플라스 안정성 이론을 이용해 제어 시스템의 상태 오차에 대한 라플라스 함수 V(x)를 정의하고, V̇<0 조건을 만족하도록 통신 지연 τ가 허용 가능한 상한 τ_max 이하로 제한되는 식을 도출한다. 이 식은 물리적 안정성 요구를 “통신 지연 ≤ τ_max”이라는 구체적인 자원 경계로 변환함으로써, 자원 할당 문제에 직접 적용할 수 있는 수학적 기반을 제공한다.
스택헬버그 게임에서는 UAV가 리더로서 자원(대역폭·전력) 가격 p를 설정하고, 사용자는 가격과 서비스 긴급도(우선순위 가중치) w_i에 따라 요청량 r_i를 최적화한다. 리더의 목적함수는 자원 수익 – 에너지 비용 형태이며, 팔로워의 목적함수는 서비스 이득 – 가격 비용 형태이다. 라플라스 기반 지연 제약은 리더의 전략 공간에 추가 제약으로 작용해, 가격이 지나치게 낮아져 지연이 τ_max을 초과하면 게임 해가 무효화되도록 설계된다. 이 구조는 물리적 안정성을 보장하면서도 경제적 효율성을 동시에 달성한다는 장점을 가진다.
전통적인 PPO는 수백만 개의 파라미터를 가진 대형 신경망을 필요로 하여, 배터리 구동 UAV에서는 연산 지연과 전력 소모가 큰 문제다. 논문은 이를 해결하기 위해 동적 구조 프루닝(dynamic structured pruning)을 도입한다. 학습 과정에서 중요도가 낮은 채널·필터를 주기적으로 제거하고, 남은 구조에 대해 재학습을 수행함으로써 네트워크 크기를 70 % 이상 압축한다. 프루닝 스케줄은 정책 손실과 가치 손실의 변화율을 모니터링해 자동으로 조정되며, 압축 후에도 정책 성능 저하가 거의 없음을 실험적으로 입증한다.
시뮬레이션에서는 급변하는 사용자 수요와 무작위 채널 페이딩을 고려한 3D UAV‑사용자 시나리오를 설정하였다. 라플라스 기반 지연 제약을 적용하지 않은 기존 스택헬버그와 비교했을 때, 제안 방법은 제어 루프 안정성을 100 % 유지하면서 시스템 총 효용을 평균 15 % 향상시켰다. 또한, 프루닝된 PPO는 원본 모델 대비 추론 지연을 3배 가량 감소시키고, 전력 소모를 40 % 절감하였다. 이러한 결과는 저고도 경제에서 UAV가 실시간 제어와 통신 서비스를 동시에 제공할 때, 안정성과 효율성을 동시에 만족시킬 수 있음을 보여준다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기