양의 선형 시스템을 위한 휴리스틱 탐색
초록
본 논문은 양의 선형 시스템의 무한시간 최적 제어 문제를 확률적 최단 경로(SSP) 문제와 동등하게 변환하고, 이를 기반으로 휴리스틱 검색 프레임워크와 분산 알고리즘을 제안한다. 선형 시스템에 대한 Bellman 방정식의 명시적 해와 상한·하한 휴리스틱을 이용해 지역 최적 해를 효율적으로 찾으며, 성능 보장을 위한 종료 조건도 제시한다.
상세 분석
논문은 먼저 양의 선형 시스템(상태와 입력이 비음수이며, 시스템 행렬 A, B가 비음수인 경우)과 선형 비용 구조를 갖는 무한시간 최적 제어 문제를 정의한다. 핵심 가정은 (A+BK)·x ≥ 0 를 모든 피드백 K∈K와 x∈ℝⁿ₊에 대해 만족하도록 하는 것으로, 이는 시스템이 양의 오소토프(positive orthant) 안에서 유지된다는 의미이다. 이 가정 하에 Theorem 1을 통해 최적 비용 함수 J⁎(x) 가 선형 형태 J⁎(x)=pᵀx 로 표현될 수 있음을 증명하고, p는 선형 방정식 p = s + Aᵀp + Σ_i min{r_i + B_iᵀp, 0} E_i 로 정의된다. 또한, 해당 p를 구하는 문제는 명시적 제약을 가진 선형 프로그램으로 변환된다.
다음 단계에서는 이 최적 제어 문제를 SSP 문제와 동등하게 매핑한다. 상태 공간 V′는 연속 상태 x를 이산화한 집합 V₀와 가상의 목표 상태 v_g 로 구성하고, 각 연속 상태의 가능한 입력 벡터가 제한 조건의 꼭짓점에 해당하므로 이를 이산 행동 집합 A(v) 로 정의한다. 전이 함수 T(v,a)는 (A+BK)·x 형태의 확률 전이 행렬로 해석되며, 목표 상태는 비용이 0인 흡수 상태로 설정된다. 이러한 매핑을 통해 Bellman 방정식의 해 p는 SSP의 최적 가치 함수와 일치함을 보인다.
핵심 기여는 두 종류의 휴리스틱—상한 휴리스틱 h⁺와 하한 휴리스틱 h⁻—을 선형 시스템에 직접 설계한다는 점이다. h⁺는 p에 대한 과잉 추정값을 제공해 탐색 우선순위를 결정하고, h⁻는 보장된 하한을 제공해 현재 경로의 최악 상황을 평가한다. 이 두 휴리스틱을 이용해 A*·Like 알고리즘을 구성하고, 각 상태에서 선택 가능한 K 집합을 제한함으로써 연산량을 크게 감소시킨다.
또한, 휴리스틱 값의 차이 Δ = h⁺−h⁻ 가 사전에 정해진 ε 이하가 되면 해당 지역에서의 탐색을 종료하고, 현재 정책을 분산 노드에 적용하도록 하는 종료 조건을 제시한다. 이를 통해 네트워크 라우팅과 같은 대규모 분산 시스템에서도 전역 최적성 보장은 포기하지 않으면서 계산 부담을 지역화할 수 있다.
실험 섹션에서는 10⁴ 차원의 랜덤 양 시스템과 실제 데이터 센터 라우팅 사례에 알고리즘을 적용해, 전통적인 가치 반복법 대비 510배 빠른 수렴 속도와 23% 수준의 비용 초과를 보였다. 특히, 상한·하한 휴리스틱을 동시에 활용한 경우 탐색 트리의 깊이가 크게 얕아져 메모리 사용량이 크게 감소하였다.
전반적으로 논문은 양의 선형 시스템이라는 특수한 제어 클래스에 대해 SSP 이론을 가져와 휴리스틱 기반 탐색을 설계함으로써, 기존 동적 계획법의 계산 복잡성을 크게 낮추고, 분산 구현 가능성을 확보한 점이 큰 의의다.
댓글 및 학술 토론
Loading comments...
의견 남기기