확률적 관계를 이용한 일반 MDP의 합성 추상화와 정책 합성

본 논문은 확률적 불확실성을 포함하는 제어 시스템을 일반 마코프 결정 과정(gMDP)이라는 형태로 모델링하고, 이러한 시스템에 대한 분석·합성·정책 합성을 효율적으로 수행하기 위한 새로운 추상화 프레임워크를 제안한다. 주요 내용은 다음과 같다. 1. **배경 및 동기** - 연속·불연속 상태공간을 갖는 MDP에 대해 정확한 정책 합성은 차원 폭발과 계산 복잡도로 인해 실용적이지 않다. 따라서 보다 단순한 모델(유한 혹은 저차원 연속 모델)로 근사하고, 근사 과정에서 정량적 오류 보증을 제공하는 것이 필요하다. 기존 연구는 확률적(바이)시뮬레이션, 마르티게일 기반 안정성, 혹은 소산성/작은 이득 조건을 활용했지만, 모델 간 의존성 표현이 제한적이거나 추상화 단계가 다중 단계에 걸쳐 보수성이 누적되는 문제가 있었다. 2. **주요 기여** - **δ‑lifted 관계 기반 (ε,δ) 근사 확률 시뮬레이션**: 두 gMDP 사이에 상태 관계 Rₓ와 내부 입력 관계 R_w 를 정의하고, 이를 확률 측정에 ‘리프팅’하여 최소 1‑δ 의 질량을 보장한다. 출력 오차 ε 와 전이 확률 오차 δ 를 동시에 다루어, 추상 모델에서 얻은 정책을 구체 모델에 정밀하게 전이할 수 있다. - **합성 가능성 정리**: 개별 서브시스템이 (ε,δ) 관계를 만족하면, 네트워크 연결 시에도 동일한 형태의 관계가 유지된다는 충분조건을 제시한다. 이는 내부 입력을 통한 상호작용을 명시적으로 포함하며, 기존 작은 이득/소산성 기반 결과를 일반화한다. - **통합 추상화 설계**: 비선형 동역학 시스템에 대해 모델 차원 축소(예: POD, balanced truncation)와 상태 이산화를 동시에 적용하는 프레임워크를 제시한다. 차원 축소 단계에서 연속 모델의 출력 오차 ε₁, 전이 확률 오차 δ₁ 를 분석하고, 이산화 단계에서 격자 해상도를 선택해 전체 오차 ε, δ 를 만족하도록 설계한다. - **실험적 검증**: 4개의 비선형 서브시스템(각 3차원, 전체 12차원)으로 구성된 네트워크를 대상으로, 차원 축소 후 4차원 연속 모델을 만들고, 이를 0.1 간격 격자로 이산화해 유한 MDP를 구성하였다. 기존 방법(무한 추상화 → 유한 MDP 순차 수행)과 비교해 δ 값이 30 % 이상 감소하고, 동일 사양을 만족하는 정책을 도출하는 데 필요한 계산 시간이 절반 이하로 감소하였다. 3. **핵심 정의 및 정리** - **δ‑lifted 관계**: 두 확률 측정 Φ, Θ 가 관계 R̄δ 에 속하려면, 공통 확률 공간 L이 존재해 마진이 각각 Φ, Θ 이고, L이 관계 R에 대해 최소 1‑δ 질량을 할당한다. - **(ε,δ)‑근사 확률 시뮬레이션**: 상태 관계 Rₓ와 입력 관계 R_w, 인터페이스 함수 ν(x, x̂, ŵ, ν̂) 를 통해, 전이 커널 T와 ̂T 가 δ‑lifted 관계에 놓이며, 출력 함수 차이가 ε 이하임을 보장한다. - **Theorem 3.5**: 위 관계가 성립하고 입력 쌍이 R_w 에 속하면, 모든 추상 정책에 대해 구체 정책이 존재하고, 출력 궤적의 확률 분포가 (1‑δ)^{T+1} 보정과 ε‑확장/축소 집합을 통해 상하한이 보장된다. - **합성 정리 (Theorem 4.x)**: 개별 서브시스템 간 (ε_i,δ_i) 관계와 동일한 출력 매핑, 독립적인 내부 입력 관계가 유지될 때, 전체 네트워크는 (max ε_i, max δ_i) 관계를 만족한다. 4. **추상화 설계 절차** - **모델 차원 축소**: 비선형 시스템을 선형화 혹은 비선형 차원 축소 기법으로 저차원 연속 모델 Σ̂_r 을 만든다. 이 단계에서 출력 오차 ε_r 와 전이 확률 오차 δ_r 를 분석한다. - **상태 이산화**: Σ̂_r 의 연속 상태공간을 격자 Q 로 분할하고, 각 격자 셀을 유한 상태로 매핑한다. 전이 확률은 원래 연속 전이 커널을 격자 셀 간 확률 질량으로 근사한다. 격자 해상도는 ε_d, δ_d 를 만족하도록 선택한다. - **통합 오류 계산**: 전체 (ε,δ) = (ε_r+ε_d, δ_r+δ_d) 로 정의하고, 설계 목표 사양에 맞는 ε, δ 를 만족하도록 차원 축소 차수와 격자 크기를 조정한다. 5. **실험 및 비교** - 네트워크 구성: 각 서브시스템은 비선형 3차원 역학 ẋ = f_i(x_i,w_i,ν_i)+σ_i ξ_i 로 정의되며, 내부 입력 w_i 는 다른 서브시스템 출력에 연결된다. - 기존 방법: LSZ18b·LSZ19a 기반 작은 이득·소산성 조건을 사용해 먼저 무한 차원 추상화(차원 축소) 후, 별도 이산화 단계에서 유한 MDP를 만든다. - 제안 방법: 차원 축소와 이산화를 한 번에 설계해 δ 를 최소화하고, 전체 시스템에 대한 (ε,δ) 관계를 직접 검증한다. - 결과: 제안 방법은 δ ≈ 0.07, ε ≈ 0.12 로 기존 방법(δ ≈ 0.10, ε ≈ 0.18)보다 보수성이 크게 낮으며, 정책 합성 시간은 45 % 감소한다. 6. **결론 및 향후 연구** - δ‑lifted 관계를 통한 (ε,δ) 근사 시뮬레이션은 확률적 시스템의 합성 추상화에 강력한 이론적 기반을 제공한다. - 모델 차원 축소와 상태 이산화를 통합 설계함으로써 보수성을 크게 낮추고, 대규모 네트워크에 대한 실시간 정책 합성 가능성을 높였다. - 향후 연구는 비선형 시스템에 대한 자동화된 차원 축소·이산화 파라미터 튜닝, 그리고 분산형 인터페이스 설계 및 학습 기반 정책 전이 방법을 탐색할 예정이다.

확률적 관계를 이용한 일반 MDP의 합성 추상화와 정책 합성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기