확률적 블라인드 컨트롤러 최적화의 계산 복잡도
초록
이 논문은 마코프 결정 과정(MDP)에서 상태를 전혀 관측하지 못하는 확률적 블라인드 컨트롤러를 찾는 문제가 NP‑hard임을 증명한다. 또한 해당 결정 문제는 PSPACE에 속하고, sqrt‑sum 문제와 동등한 난이도를 가지므로 NP에 포함시키려면 오래된 컴퓨터 과학 난제들의 해결이 필요하다. 마지막으로 전이 행렬이 대칭·이중확률적이고 비용이 초기 분포에 비례하는 특수 경우에는 목적함수가 볼록해져 전역 최적해를 다항시간에 구할 수 있음을 제시한다.
상세 분석
논문은 먼저 POMDP에서 관측이 전혀 없는 “블라인드” 컨트롤러를 정의하고, 이를 MDP의 상태‑액션 분포가 아닌 단일 확률벡터 π∈Δ 로 파라미터화한다. 이때 점유분포 x와 π 사이의 관계는 Bellman 점유 제약식
x = (1‑γ)μ + γ ∑ₐπₐ Pₐ x
으로 표현되며, 목표 비용은 J(π)=cᵀx 이다. 식 (2)는 x와 π가 동시에 등장하는 이중선형(bilinear) 형태이며, 일반적인 이중선형 프로그램은 전역 최적화가 NP‑hard임이 알려져 있다. 그러나 저자는 이 구조가 특별히 쉬운지는 별도 검증이 필요하다고 언급하고, 실제로는 그렇지 않음을 보인다.
NP‑hardness는 독립집합 문제로부터의 다항식 환원으로 증명된다. 입력 그래프 G의 인접행렬을 이용해 n개의 상태와 n개의 액션을 갖는 MDP를 구성하고, 전이확률을 “액션 a가 상태 a로 이동”하도록 설정한다. 비용 행렬을 C = (G+I)/γ 로 두면 비용 함수는
J(π)= (4(1‑γ)/nγ) + πᵀ(G+I)π
가 된다. Motzkin‑Straus 정리에 의해 πᵀ(G+I)π는 독립집합 크기의 역수와 직접 연결되므로, 목표 비용 r을 적절히 정하면 J(π)≤r ⇔ G에 크기 j 이상의 독립집합 존재와 동치가 된다. 따라서 결정 문제는 NP‑hard이다.
PSPACE 포함은 식 (2)를 다항식 차수의 부등식 체계로 변환할 수 있음을 이용한다. 부등식 체계의 실존 여부는 기존 결과(Canny, 1988)에 의해 PSPACE‑complete임이 알려져 있다.
sqrt‑sum‑hardness는 또 다른 환원으로 보인다. 입력 정수 c₁,…,cₙ와 임계값 d에 대해, n+1개의 상태와 n개의 액션을 갖는 MDP를 만든다. 각 상태 i에서 액션 i는 흡수 상태로 이동하고, 다른 액션은 자기 자신으로 되돌린다. 비용은 상태에만 의존하도록 설정하고, 할인인자를 γ 를 조정해 비용 함수가
J(π)= (n+ε) · (∑₁ⁿ √cᵢ)² / (n+ε)²
와 같은 형태가 되게 만든다. Jensen 부등식을 이용해 최적 비용이 정확히 √cᵢ의 합과 연결되므로, J(π)≤r ⇔ ∑√cᵢ ≤ d 가 된다. 따라서 sqrt‑sum 문제와 동등한 난이도를 갖는다.
특수 경우의 다항시간 해결은 전이 행렬 Pₐ가 모두 대칭·이중확률적이며 비용이 c = –κ μ (κ>0)인 경우에 제시된다. 이때 목적함수는
f(π)= μᵀ (I – γ M(π))⁻¹ μ
이며, M(π)=∑ₐπₐ Pₐ. Lemma 1에 의해 I–γ M(π) 가 항상 대칭 양정(positive definite)이며, Schur 보완을 이용해 epigraph가 선형 행렬 부등식(LMI) 형태임을 보인다. 따라서 f는 π에 대해 볼록(convex)하고, –f는 볼록함수의 최소화 문제로 변환된다. 볼록 최적화에서는 최적해가 단순히 단점(확률벡터의 코너) 중 하나에 존재하므로, 모든 결정형 블라인드 컨트롤러(k개)를 평가해 최적을 선택하면 O(k n³) 시간에 해결 가능하다.
결론 및 전망에서는 블라인드 컨트롤러 최적화가 일반적으로는 NP‑hard, PSPACE, sqrt‑sum‑hard임을 강조하고, 비용이 상태와 액션 모두에 의존한다는 가정이 핵심임을 언급한다. 또한 근사 최적화와 무한‑시간 비할인 경우 등 아직 해결되지 않은 여러 연구 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기