단계 지속시간이 있는 POMDP 전략의 복제와 가치 함수의 단조성
본 논문은 단계 지속시간 \(h\in(0,1]\) 을 갖는 POMDP에서 어떤 전략이든 기본 POMDP(\(h=1\))에서 동일한 장기 평균 보상을 얻도록 복제할 수 있음을 보인다. 이를 통해 가치 함수 \(V(h)\)가 \(h\)에 대해 비감소이며, 연속시간 한계 \(\lim_{h\to0}V(h)\)가 존재함을 증명한다.
저자: Ivan Novikov
본 논문은 단계 지속시간 파라미터 \(h\in(0,1]\)를 도입한 부분관측 마코프 결정 과정(POMDP)을 연구한다. 단계 지속시간이란 각 시점에서 실제 상태 전이가 일어날 확률을 \(h\)로 축소하고, 나머지 \((1-h)\) 확률에서는 상태가 그대로 유지되는 메커니즘을 의미한다. 이러한 모델은 연속시간 스토캐스틱 게임을 이산시간으로 근사하는 전통적 접근법을 일반화한다. 기존 연구는 주로 할인계수 \(\lambda\)가 고정된 채 \(h\to0\)일 때의 할인값 \(\,V_\lambda(h)\)의 극한을 다루었지만, 본 논문은 \(\lambda\to0\) 후의 비할인 장기 평균 가치 \(\,V(h)=\lim_{\lambda\to0}V_\lambda(h)\)의 전체적인 \(h\) 의존성을 탐구한다.
먼저, POMDP \(G_h\)를 정의하고, 전이확률을 \(P_h(\cdot|\omega,a)=hP(\cdot|\omega,a)+(1-h)\delta_\omega\) 로 설정한다. 여기서 \(\delta_\omega\)는 현재 상태에 머무르는 확률 질량이다. 이 구조는 매 단계마다 “실제 전이”가 일어날지 여부를 결정하는 베르누이 변수 \(X_i\sim\text{Bernoulli}(h)\)와, 실제 전이가 일어나는 시점들을 기록하는 누적 시간 변수 \(T_k\)를 도입하게 만든다. \(N_k=T_k-T_{k-1}\)는 두 연속 전이 사이의 동결 구간 길이이며 기하분포 \(\text{Geom}(h)\)를 따른다.
핵심 아이디어는 \(G_h\)에서 실제 전이가 발생한 순간들의 히스토리만을 추출한 “필터링된 히스토리” \(\mathcal H^{\text{fil}}_k\)를 이용해, 기본 POMDP \(G_1\) (즉, \(h=1\)인 경우)에서 대응 전략 \(\tilde\sigma\)를 명시적으로 구성하는 것이다. 구체적인 정의는
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기