단계 지속시간이 있는 POMDP 전략의 복제와 가치 함수의 단조성

본 논문은 단계 지속시간 파라미터 \(h\in(0,1]\)를 도입한 부분관측 마코프 결정 과정(POMDP)을 연구한다. 단계 지속시간이란 각 시점에서 실제 상태 전이가 일어날 확률을 \(h\)로 축소하고, 나머지 \((1-h)\) 확률에서는 상태가 그대로 유지되는 메커니즘을 의미한다. 이러한 모델은 연속시간 스토캐스틱 게임을 이산시간으로 근사하는 전통적 접근법을 일반화한다. 기존 연구는 주로 할인계수 \(\lambda\)가 고정된 채 \(h\to0\)일 때의 할인값 \(\,V_\lambda(h)\)의 극한을 다루었지만, 본 논문은 \(\lambda\to0\) 후의 비할인 장기 평균 가치 \(\,V(h)=\lim_{\lambda\to0}V_\lambda(h)\)의 전체적인 \(h\) 의존성을 탐구한다. 먼저, POMDP \(G_h\)를 정의하고, 전이확률을 \(P_h(\cdot|\omega,a)=hP(\cdot|\omega,a)+(1-h)\delta_\omega\) 로 설정한다. 여기서 \(\delta_\omega\)는 현재 상태에 머무르는 확률 질량이다. 이 구조는 매 단계마다 “실제 전이”가 일어날지 여부를 결정하는 베르누이 변수 \(X_i\sim\text{Bernoulli}(h)\)와, 실제 전이가 일어나는 시점들을 기록하는 누적 시간 변수 \(T_k\)를 도입하게 만든다. \(N_k=T_k-T_{k-1}\)는 두 연속 전이 사이의 동결 구간 길이이며 기하분포 \(\text{Geom}(h)\)를 따른다. 핵심 아이디어는 \(G_h\)에서 실제 전이가 발생한 순간들의 히스토리만을 추출한 “필터링된 히스토리” \(\mathcal H^{\text{fil}}_k\)를 이용해, 기본 POMDP \(G_1\) (즉, \(h=1\)인 경우)에서 대응 전략 \(\tilde\sigma\)를 명시적으로 구성하는 것이다. 구체적인 정의는 \

단계 지속시간이 있는 POMDP 전략의 복제와 가치 함수의 단조성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기