Title: ARES: Adaptive Receding-Horizon Synthesis of Optimal Plans
ArXiv ID: 1612.07059
발행일: 2016-12-23
저자: Anna Lukina, Lukas Esterle, Christian Hirsch, Ezio Bartocci, Junxing Yang, Ashish Tiwari, Scott A. Smolka, and Radu Grosu
📝 초록 (Abstract)
ARES 알고리즘을 소개합니다. 이는 Markov 결정 과정(MDP)의 초기 상태에서 지정된 수렴 임계치를 초과하지 않는 비용이 있는 상태로 최적의 계획(행동 순서)을 생성하는 효율적인 근사 알고리즘이다. ARES는 입자 군집 최적화를 사용하며, 재현 수평선 및 입자 군집의 크기를 적응적으로 조절한다. 중요성 분할에 영감을 받아, 수평선의 길이와 입자의 수가 적어도 하나의 입자가 다음 단계 상태로 도달하도록 선택되며, 이는 비용이 이전 단계 상태에서 필요량만큼 감소하는 상태이다. 상태 간 관계 및 ARES에 의해 구성된 계획은 각각 명시적으로 생성될 수 있는 리아푸노프 함수와 최적 정책을 암시적으로 정의한다. 우리는 또한 통계적으로 ARES가 최적 계획을 생성하는 성공률을 평가하여 그 효과를 검증한다. 7마리 새로 구성된 무리에 대해, ARES는 임의의 초기 상태로부터 V형 배치 상태로 이르는 계획을 95%의 경우에 성공적으로 생성하며, 평균 63초 안에 이를 달성할 수 있다. 또한 ARES를 재현 수평선과 수렴 확률 보장을 갖춘 모델 예측 제어기(MPC)로 쉽게 변형시킬 수 있다.
💡 논문 핵심 해설 (Deep Analysis)
**Summary**: This paper introduces ARES (Adaptive Receding-Horizon Synthesis of Optimal Plans), an algorithm designed to generate optimal action sequences from initial states in a Markov Decision Process (MDP). It specifically addresses the challenge of achieving V-formation flight in bird flocks.
Problem Statement: Traditional methods, such as simple dynamic rules, are insufficient for complex optimization problems like guiding a flock into a stable V-formation. Such formations optimize energy conservation, clear view, and velocity alignment, but require sophisticated planning to achieve these objectives efficiently.
Solution Approach (Core Technology): ARES leverages Particle Swarm Optimization (PSO) to tackle this problem by adaptively sizing the receding horizon and particle swarm. The algorithm dynamically adjusts its parameters to ensure that it converges to states with lower costs, effectively guiding the flock into a V-formation. By doing so, ARES provides a more efficient solution compared to conventional methods, especially for complex optimization tasks like those encountered in bird flocking.
Major Achievements: One of the key achievements of ARES is its ability to generate plans leading to stable V-formations from random initial states with 95% success rate on average within 63 seconds. Additionally, it can be adapted into a Model Predictive Controller (MPC) with adaptive receding horizons and statistical convergence guarantees.
Significance & Applications: This research provides an algorithm that enables the generation of optimal plans for achieving V-formations in bird flocks, optimizing energy conservation and other objectives. Such algorithms have wide-ranging applications, from real-time control systems to decentralized control of robotic swarms. In particular, they can enhance energy efficiency in drone-based delivery services by generating optimal flight paths.
📄 논문 본문 발췌 (Translation)
# 서론
군집 비행(bird flocking)이나 군집 이동(swarming)은 사회적 동물(새, 물고기, 개미, 벌 등)들이 특정 전역적인 형태를 형성하는 현상으로, 연구자들로부터 지속적인 관심을 받고 있다. 이러한 형태가 더 높은 목적을 달성하기 위해 존재한다면 그것이 무엇인지 알아보고 싶다.
V-formation 비행은 가장 잘 연구된 비행 형태 중 하나이다. 이 분야의 대부분의 작업은 각 새가 간단한 동적 규칙을 따르도록 설계하여, 최종적으로 원하는 V-formation으로 안정화시키는 것에 초점을 맞추고 있다. 하지만 이러한 접근법은 이 현상이 달성하는 전반적인 목적에 대한 명확한 이해를 제공하지 못한다.
우리의 이전 연구에서는 V-formation 비행이 군집 기반 Markov 결정 과정(MDP) $\mathcal{M}$의 최적 정책일 수 있다는 가설을 제기하였다. 시간 $t$에서 상태는 $N$마리 새 무리의 2차원 위치와 속도 벡터, 즉 $(\xv_i(t), \vv_i(t))$, $1 \leq i \leq N$으로 구성된다. $\mathcal{M}$의 전이 관계는 다음과 같이 일반적으로 주어진다:
여기서 $\va_i(t)$는 시간 $t$에서 새 $i$가 취할 수 있는 행동, 즉 이 경우 2차원 가속도이다. $\mathcal{M}$의 비용 함수는 상태의 에너지 절약, 속도 정렬 및 시야 확보를 반영한다 (참조: 섹션 6).
이 논문에서는 이러한 가설을 확인하고, MDP와 그 초기 상태가 주어졌을 때, 원하는 임계치보다 낮은 비용을 가지는 상태로 이르는 최적의 계획(행동 순서)를 생성할 수 있는 매우 일반적인 적응형 재현 수평선 합성 알고리즘 (ARES)을 제시한다. 실제로 ARES는 실제 사용이 가능하도록 계획을 실시간으로 생성할 수 있는 온라인 최적 정책 합성 알고리즘이다.
ARES는 입자 군집 최적화(PSO)를 반복적으로 활용하여 효과적인 계획을 생성한다. 이는 사실상 불필요한 접근이었지만, 한 번에 PSO를 호출하고 최대 계획 길이 수평선을 사용하면 실용적이지 않다. MDP의 각 전개가 검색 공간에 새로운 차원을 추가하기 때문에, 적절한 커버리지를 얻기 위해서는 매우 많은 입자를 필요로 하며 이는 기계 메모리를 소진하거나 최적 계획을 찾는데 긴 시간이 걸릴 수 있다.
이 문제를 해결하는 간단한 방법은 짧은 수평선, 일반적으로 크기가 2 또는 3인 수평선을 사용하는 것이다. 그러나 이러한 접근법에는 다음과 같은 세 가지 주요 단점이 있다: 첫째로 가장 중요한 점은 수렴 및 최적화를 보장하지 않는다는 것이며, 이는 로컬 최소값에 갇히거나 진동할 가능성이 있기 때문이다. 둘째, 일부 단계에서는 윈도우 크기가 불필요하게 커져 성능에 부정적인 영향을 미칠 수 있다. 셋째, 다른 단계에서는 로컬 최소값에서 벗어날 충분한 수평선 길이가 제공되지 않을 수 있다 (참조: 그림 1(왼쪽)). 따라서 적응적으로 윈도우 크기를 찾는 것이 필요하다.
중요성 분할(ISP)을 통해 영감을 받은 우리는 레벨 기반 수평선의 개념을 도입한다. $ℓ_0$는 초기 상태의 비용이고, $ℓ_m$은 원하는 임계치이다. 원하는 임계치로 점진적으로 수렴하는 상태 함수를 사용하여 수준 시퀀스를 결정할 수 있으며, 이를 통해 ARES가 원하는 최적 상태로 수렴하도록 한다.
레벨은 두 가지 목적을 가지고 있다: 첫째, 리아푸노프 함수를 암시적으로 정의하고 이를 통해 수렴을 보장한다. 이 함수는 필요에 따라 모든 상태에 대해 명시적으로 생성할 수 있다 (위상 동치까지). 둘째, PSO가 로컬 최소값을 극복하도록 돕는다 (참조: 그림 1(왼쪽)). 다음 레벨로 도달하기 위해 PSO가 비용 리지(state-cost ridge)를 임시로 통과해야 하는 경우 ARES는 수평선 길이를 최대 길이까지 점진적으로 증가시킨다.
왼쪽: 상태 s_0의 비용이 ℓ_0, 그 후속 상태 s_1의 비용이 ℓ_1보다 작은 경우, 길이 1의 수평선이 적절하다. 그러나 상태 s_i가 로컬 최소값 비용 ℓ_i를 가진다면, 비용 리지를 통과해야 하므로 ARES는 수평선 길이를 3으로 적응적으로 늘려야 한다. 오른쪽: 초기 상태의 비용은 ℓ_0, 주어진 임계치 φ가 ℓ_m을 정의한다. 수렴하는(리아푸노프) 함수에 등분된 m개의 세그먼트를 선택하여 수평선이 수렴하도록 필요한 레벨을 얻는다.
중요성 분할(ISP)에서 가져온 또 다른 아이디어는 초기 상태의 복제본 n개를 동시에 유지하고, 각각에 대해 PSO를 실행하는 것이다. 이를 통해 각 클론과 원하는 수평선에 대해 매우 적은 입자 수로 PSO를 호출할 수 있다. 레벨을 넘지 못한 클론은 제거되고 성공적인 클론들은 재샘플링된다. 모든 선택된 수평선에서 다음 레벨로 도달하지 못하는 경우, 입자의 수는 증가한다. 이를 반복하면 로컬 최소값에서 벗어나는 데 자원을 적응적으로 집중할 수 있다. 마지막 레벨에서는 최적의 입자(V-formation)를 선택하고 그 이전 상태들을 찾아 계획을 생성한다.
성공률은 원하는 오차 마진 ε과 신뢰도 비율 1 - δ로 평가된다. 또한, 생성된 상태-행동 쌍을 사용하여 명시적인 최적 정책(위상 동치까지)를 생성할 수 있다. 충분한 메모리가 주어진다면 이 정책은 테이블 조회만 필요하기 때문에 실시간에 사용 가능하다.
이 접근법을 실험적으로 검증하기 위해, 우리는 ARES 알고리즘을 새 무리의 V-formation 문제에 적용하였다 (확률론적 MDP). 최적화해야 하는 비용 함수는 클리어 뷰(Clear View), 속도 정렬(Velocity Alignment) 및 업워시(Upwash Benefit) 메트릭의 가중합으로 정의된다. 클리어 뷰와 속도 정렬은 명백한 목표이다. 업워시는 에너지 절약을 최적화한다. 새가 날개를 휘두르면 날개 끝에서 트레일링 업워시 영역이 생성되며, 이 업워시를 사용하면 에너지를 절약할 수 있다.
ARES는 8,000개의 임의로 선택된 초기 상태에 대해 실험하였다. 이들은 충돌하지 않으면서 업워시를 느낄 수 있는 거리에 위치하도록 설정되었다. ARES는 95%의 경우에 V-formation을 생성하였으며, 오차 마진은 0.05이고 신뢰도 비율은 0.99였다.
V-Formation MDP
새 무리를 동적으로 진화하는 시스템으로 표현한다. 우리의 모델에서 각 새는 전역 제어기의 가속도 행동을 수행하며, 이는 2차원 공간에서 움직인다. 시간 $t$에서 새 $i$의 위치와 속도 벡터 $\xv_i(t)$, $\vv_i(t)$ 및 가속도 벡터 $\va_i(t)$가 주어진다 ($i \in {1,\ldots,b}$). 시간 $t$에서 새 $i$의 동작은 다음과 같이 정의된다:
제어기는 모든 새들의 위치와 속도를 센서를 통해 감지하고, 이를 사용하여 무리 전체에 대한 최적의 가속도를 계산한다. 각 새는 그 해답 중 자신의 부분을 사용하여 속도와 위치를 업데이트한다.
이 이산 시간 동역학 모델을 (확률론적인) MDP로 확장하기 위해, 다음과 같은 메트릭으로 기반한 비용(적합성) 함수를 추가한다:
클리어 뷰 (${\it CV}$). 새의 시각 필드는 다른 새들의 날개에 의해 차단될 수 있는 각도 $\theta$인 콘이다. 클리어 뷰 메트릭은 새의 시각 필드 중 다른 새들에 의해 차단되는 퍼센테이지를 누적하여 정의한다 (참조: 그림 2(왼쪽)). V-formation에서 최적 값은 ${\it CV}^* = 0$으로, 모든 새가 클리어 뷰를 가짐을 의미한다.
속도 일치 (${\it VM}$). 각 새와 다른 모든 새들 사이의 속도 차이의 누적값으로 정의된다. 전체 무리에 대한 ${\it VM}$의 값은 각 새들의 속도가 일치하는 V-formation에서 최적 값 ${\it VM}^* = 0$을 가진다.
업워시 이점 (${\it UB}$). 업워시는 새의 날개 끝 부근에 생성되며, 다운워시는 새 중앙 부근에 생성된다. 업워시와 다운워시 지역을 모델링하여 각 새의 업워시 이점을 누적한다 (참조: 그림 2(오른쪽)). 업워시를 얻을 수 있는 최대 값은 1이다. 새 $i$에 대한 ${\it UB}_i$는 최적화 알고리즘이 비용 메트릭을 최소화하기 때문에 $1 - {\it UB}_i$로 사용된다. V-formation에서 최적값은 ${\it UB}^* = 1$이며, 리더 새는 업워시를 받지 않기 때문이다.
최적화 문제를 해결하는 데 있어 적합성 메트릭의 부드럽고 연속적인 표현이 핵심 요소이다. 만약 적합성 메트릭이 잘 설계되지 않았다면 PSO 알고리즘이 최적 해를 찾는 확률은 매우 낮다.
클리어 뷰(CV), 속도 일치(VM) 및 업워시 이점(UB) 메트릭의 시각화. 왼쪽: 새 i의 시야는 다른 새 j와 k에 의해 부분적으로 차단된다. 따라서 그 클리어 뷰는 (α + β)/θ이다. 중간: 속도가 일치하지 않은 무리에서 VM 값은 6.2805이다. 모든 새들의 속도가 일치할 때 VM = 0이 된다. 오른쪽: 새 i가 새 j 뒤에 위치할 때 받는 (오른쪽 날개) 업워시 이점의 시각화. 새 j의 다운워시 지역은 바로 뒤에 있다.
시간 단계 $t$에서 무리 구성 $\boldsymbol{c}(t)=\{\boldsymbol{c}_i(t)\}_{i=1}^b=\{\xv_i(t), \vv_i(t)\}_{i=1}^b$이 주어지면, 적합성 함수는 다음과 같이 정의된다: