“동적계획법 기반 유한시간 최적제어 문제의 수치근사: 최적 오차 경계와 1차 수렴성 확보”
📝 Abstract
In this paper we provide optimal bounds for fully discrete approximations to finite horizon problems via dynamic programming. We adapt the error analysis in \cite{nos} for the infinite horizon case to the finite horizon case. We prove an a priori bound of size $O(h+k)$ for the method, $h$ being the time discretization step and $k$ the spatial mesh size. Arguing with piecewise constants controls we are able to obtain first order of convergence in time and space under standard regularity assumptions, avoiding the more restrictive regularity assumptions on the controls required in \cite{nos}. We show that the loss in the rate of convergence in time of the infinite case (obtained arguing with piece-wise controls) can be avoided in the finite horizon case
💡 Analysis
**
| 구분 | 내용 | 평가·의의 |
|---|---|---|
| 연구 배경 | DP 원리에 의해 최적값 함수는 비선형 HJB 방정식의 점성해(solution)이며, 이를 수치적으로 해결하기 위해 반라그랑주(semi‑Lagrangian) 방법이 널리 사용된다. 그러나 유한시간 문제에 대한 정밀한 오차 분석은 아직 부족했다. | 실제 제어 시스템(예: 로봇, 항공기)의 운용 기간이 유한한 경우가 많아 실용적 가치가 크다. |
| 핵심 기법 | 1. 시간 전진 Euler + 복합 사각형법(rectangle rule)으로 동역학을 이산화. 2. 비용·동역학을 조각선형(piece‑wise linear) 보간으로 공간 이산화. 3. 제어는 조각상수로 가정해, 제어에 대한 고차 정규성 가정 없이도 분석 가능. 4. 기존 무한시간 분석 ( |
📄 Content
수치적 최적 제어 문제의 근사화는 다양한 응용 분야에서 중요한 역할을 합니다. 본 논문에서는 유한 시간 구간 문제를 해결하기 위한 동적 계획법(dynamic programming) 접근법을 다룹니다. 동적 계획 원리(DPP)는 가치 함수(value function)를 비선형 편미분 방정식인 Hamilton‑Jacobi‑Bellman(HJB) 방정식의 유일한 점점성 해(viscosity solution)로 특징짓습니다. 이후 이 가치 함수를 이용해 피드백 제어 법칙(feedback control law)을 합성(synthesis)합니다.
본 논문에서의 주요 목표는 가치 함수에 접근하는 완전 이산 반라그랑지안(semi‑Lagrangian) 방법에 대한 최적 오차 경계(optimal error bounds)를 제시하는 것입니다. 시간 스텝 크기 (h>0)와 공간 요소 크기 (k>0)를 갖는 방법에 대해, 우리는 (O(h+k)) 차원의 최적 오차 경계가 성립함을 증명합니다. 이는 시간과 공간 모두에서 1차 수렴(first‑order convergence)을 의미합니다. 우리는 [9]에서 유도된 완전 이산 방법의 특징화(characterization)를 도입하고, 이를 [10]에서도 다루었습니다.
오차의 시간적 성분은 오일러(Euler) 방법에 기반한 이산 동역학 근사와 복합 직사각형 규칙(composite rectangle rule)을 이용한 시간 적분 근사에서 비롯됩니다. 공간적 성분은 동역학 및 비용 함수에 등장하는 함수를 공간에서 조각별 선형 보간(piece‑wise linear interpolants)으로 대체함으로써 발생합니다. [9, Section 3.2]의 기법을 시간에 대해 조각별 상수 제어(piece‑wise constant controls)와 결합함으로써, 제어에 대한 정규성 가정(regularity assumption)을 피할 수 있습니다. 대신, 계산된 이산 제어에 대해 일종의 이산 정규성 가정(discrete regularity assumption)만을 필요로 하며, 이는 정리 1의 주석(Remarks 1)에서 자세히 설명됩니다.
우리는 본 논문의 오차 분석 기법이 동일하거나 유사한 문제에 적용되는 다른 방법들의 분석에도 유용할 것이라 판단합니다. 현재까지 유한 시간 구간 제어 문제를 다루는 논문 중에서 오차 추정(error estimates)을 제공하는 경우는 드뭅니다. 예를 들어, [11]에서는 트리 구조에 기반한 동적 계획 알고리즘을 제시했으며, 이는 공간 이산화를 필요로 하지 않아 차원의 저주(curse of dimensionality)를 완화합니다[1]. 논문의 첫 번째 부분에서는 시간에 대한 1차 오차 경계가 도출되고, 두 번째 부분에서는 연속적인 제어 집합을 이산 집합으로 대체하는 경우를 다룹니다. 트리 구조는 이산 동역학에 의해 생성된 공간 노드만을 고려합니다. 전체 노드 수의 급격한 증가를 억제하기 위해 [1]에서는 새로운 노드와 기존 노드 사이의 거리가 충분히 작을 때 새로운 노드를 기존 노드로 대체하는 가지치기(pruning) 기준을 적용했습니다. 그러나 이 가지치기 조건은 (O(h^{2})) 수준의 차이를 요구함으로써 너무 강력합니다(여기서 (h)는 시간 스텝). 이는 오차 경계에 (h)가 분모에 나타나는 현상에서 비롯됩니다. 본 논문에서 제시한 오차 분석을 적용하면 이 문제를 해결할 수 있습니다. 무한 시간 구간 문제에 대해서는 [9]의 오차 분석이 동일한 문제를 해결했으며, 그 결과 (O(h+k)) 수렴률이 처음으로 증명되었습니다. 이는 기존 문헌에 나타난 (O(k/h)) 수렴률[6, Corollary 2.4; 7, Theorem 1.3]을 크게 개선한 것입니다.
비록 본 논문에서 다루는 방법이 차원의 저주를 완전히 피하지는 못하지만, [8]에서 제시된 차원 축소 기법을 적용할 수 있습니다. [8]에서는 적절한 직교 분해(proper orthogonal decomposition, POD)를 이용한 차원 축소 방법을 무한 시간 구간 최적 제어 문제에 적용했으며, 동일한 아이디어를 유한 시간 구간 문제에도 확장할 수 있습니다. 차원 축소 방법의 오차 분석에는 본 논문의 결과가 필수적이며, 향후 연구에서는 이를 기반으로 한 효율적인 알고리즘 개발이 기대됩니다.
논문의 구성
- Section 2 – 기호와 기본 가정 소개
- Section 3 – 완전 이산 근사법 제시
- Section 4 – 방법의 오차 분석 수행
- 부록 – 주요 정리 증명에 필요한 보간(interpolation) 논증 수록
기본 설정 및 문제 정의
다음 시스템을 고려합니다.
[ \dot y(s)=f\bigl(y(s),u(s),s\bigr),\qquad s\in(t,T], \tag{1} ]
여기서
(y:[t,T]\to\mathbb R^{d})는 상태 궤적,
(u:[t,T]\to\mathbb R^{m})는 제어,
(f:\mathbb R^{d}\times\mathbb R^{m}\to\mathbb R^{d})는 동역학,
(U\subset\mathbb R^{m})는 콤팩트한 허용 제어 집합이며, (\mathcal U)는 모든 가측 제어 함수들의 집합을 의미합니다. (1)에 대한 해는 각 (u\in\mathcal U)에 대해 유일하게 존재한다고 가정합니다.
유한 시간 구간 최적 제어 문제의 비용 함수는
[ J_{x,t}(u)=\int_{t}^{T}L\bigl(y(s),u(s),s\bigr),e^{-\lambda(s-t)},ds +g\bigl(y(T)\bigr),e^{-\lambda(T-t)}, \tag{2} ]
여기서 (L)은 순간 비용, (g)는 최종 비용, (\lambda\ge0)는 할인 인자입니다. 목표는 상태 피드백 법칙 (u(t)=\Phi\bigl(y(t),t\bigr))를 찾는 것이며, 이를 위해 동적 계획 원리(DPP)를 적용합니다. 초기 상태 ((x,t))에 대한 가치 함수는
[ v(x,t)=\inf_{u\in\mathcal U}J_{x,t}(u). \tag{3} ]
가치 함수 (v)는 모든 (x\in\mathbb R^{d},,s\in[t,T))에 대해 HJB 방정식
[ -\partial_{t}v(x,t)+\lambda v(x,t)+\min_{u\in U}\bigl{L(x,u,t)+\nabla v(x,t)\cdot f(x,u,t)\bigr}=0, \tag{4} ]
을 만족합니다. (4)의 해가 알려지면 최적 피드백 제어는
[ u^{}(t)=\arg\min_{u\in U}\bigl{L\bigl(y^{}(t),u,t\bigr)+\nabla v\bigl(y^{}(t),t\bigr)\cdot f\bigl(y^{}(t),u,t\bigr)\bigr} \tag{5} ]
으로 구할 수 있습니다. (4)는 일반적으로 해석적으로 풀기 어려우므로, 다음 절에서 반라그랑지안 방법을 도입해 수치적으로 접근합니다.
가정
- (f, L, g)는 모든 변수에 대해 연속이며 유계이다.
- (f)와 (L)은 모든 인자에 대해 Lipschitz 연속이다.
- (g)도 Lipschitz 연속이다.
3. 완전 이산 근사
시간 스텝을 (h=(T-t)/N)라 두고, (\Omega\subset\mathbb R^{d})를 유계 다면체라 하며, 충분히 작은 (h)에 대해 동역학이 (\Omega) 안으로 들어가는(inward pointing) 조건을 만족한다고 가정합니다. ({S_{j}}{j=1}^{m})는 (\Omega)를 정규 삼각분할(regular triangulation)하는 단순체들의 집합이며, 정점(노드) 수를 (n{s})라 둡니다.
(V_{k})는 각 단순체 내부에서 기울기가 일정한, (\Omega) 전역에서 연속인 조각별 선형 함수들의 공간이며, 격자 크기 (k)는 최대 정점 간 거리로 정의됩니다.
완전 이산 스킴은 다음과 같이 정의됩니다.
[ v^{n}{h,k}(x)=\min{u\in U}\Bigl{,h,L\bigl(x,u,t_{n}\bigr)+\delta_{h}, \mathcal I_{k}\bigl[v^{n+1}{h,k}\bigr]\bigl(x+h,f(x,u,t{n})\bigr)\Bigr}, \qquad n=0,\dots,N-1, \tag{6} ]
여기서 (\delta_{h}=1-\lambda h), (t_{n}=t+nh)이며, (\mathcal I_{k})는 (V_{k})에 속하는 조각별 선형 보간 연산자입니다. (v^{N}_{h,k}=g) 로 초기화합니다.
위와 같은 스킴은 [9]와 [10]에서 제시된 완전 이산 방법의 특징화를 그대로 계승합니다. 구체적으로, 임의의 (x\in\Omega)와 제어 집합 ({u_{1},\dots,u_{n_{s}}}\subset U)에 대해
[ \mathcal I_{k}L(x,u_{1},\dots,u_{n_{s}},t) =\sum_{i=1}^{n_{s}}\mu_{i}(x),L\bigl(x_{i},u_{i},t\bigr), \qquad \mathcal I_{k}f(x,u_{1},\dots,u_{n_{s}},t) =\sum_{i=1}^{n_{s}}\mu_{i}(x),f\bigl(x_{i},u_{i},t\bigr), \tag{7} ]
where (\mu_{i}(x)) are the barycentric coordinates of (x) with respect to the simplex containing (x).
정리 1과 정리 2는 각각 (6)의 해가 유일함을, 그리고 각 노드 (x_{i})에서 최소값을 주는 제어 (u^{n}_{i})가 어떻게 결정되는지를 명시합니다. 이 특징화는 이후 오차 경계 증명에 핵심적으로 활용됩니다.
4. 오차 분석
우리는 [9, Section 3.2]와 [5]의
이 글은 AI가 자동 번역 및 요약한 내용입니다.