두 단계 최적 정지와 낚시 문제

본 논문은 두 개의 낚싯대를 사용하면서 시간 제한 내에 최대 만족을 얻기 위해 두 번의 최적 정지 시점을 찾는 문제를 다룬다. 마크드 갱신‑보상 과정을 모델링하고 동적 계획법을 이용해 최적 정지 규칙을 도출한다. 또한 경쟁 상황을 게임 이론적으로 확장한다.

저자: Anna Karpowicz, Krzysztof Szajowski

본 논문은 “낚시 문제”라는 고전적인 최적 정지 모델을 다변량 마크드 갱신‑보상 프로세스로 확장한다. 낚시꾼은 최대 두 개의 낚싯대를 동시에 사용할 수 있으며, 각 막대 i∈{1,2}에 대해 독립적인 갱신 과정 N_i(t)와 i.i.d. 보상 X_i^k가 정의된다. 보상 변수는 사전에 알려진 분포 H_i를 따르고, 도착 간격 S_i^k는 연속분포 F_i를 가진다. 낚시꾼의 만족도는 가치 함수 g_a와 비용 함수 c_a의 차이로 모델링된다. 여기서 g_a는 현재까지 잡힌 물고기의 총 가치와 마지막 잡힌 물고기의 종류에 따라 달라지고, c_a는 사용한 시간과 동시에 사용한 막대 수에 비례하는 비용을 나타낸다. 낚시꾼은 고정된 시간 t₀(티켓 유효시간) 내에 두 번의 정지 시점을 선택해야 한다. 첫 번째 정지 시점 s에서는 한 개의 막대를 제외하고 남은 막대에 집중하거나, 반대로 한 개의 막대만 사용하도록 전환한다. 두 번째 정지 시점 τ는 전체 탐사를 종료하는 시점이다. 수학적 모델링은 2‑변량 마크드 갱신 과정 {(T_n, z_n)}_{n≥0}를 기반으로 한다. 여기서 T_n는 n번째 물고기가 잡힌 시점, z_n은 그 물고기의 종류(막대 번호)를 나타낸다. 각 막대 i에 대한 갱신 과정은 N_i(t)=∑_{n}1_{T_n≤t}1_{z_n=i} 로 표현된다. 전체 보상은 Z(s,τ) 로 정의되며, s 이전과 이후의 보상·비용 구조가 다를 수 있음을 반영한다(식 (4)·(5)). 정지 시점은 필터션 𝔽_t=σ(X_0,T_0,z_0,…,X_{N(t)},T_{N(t)},z_{N(t)})에 대한 적응적 정지 시간 집합 T 로 정의된다. Lemma 1은 모든 τ∈T가 T_n과의 관계를 이용해 τ∧T_{n+1}=(T_n+R_n)∧T_{n+1} 형태로 표현될 수 있음을 보이며, 이는 동적 계획법에서 상태 전이와 기대값 계산에 핵심적인 역할을 한다. 동적 계획법은 역방향으로 두 단계 최적 정지 문제를 해결한다. 먼저 τ에 대한 최적 정책을 구하고, 그 가치 함수를 V_2(s)라 두어 s에 대한 최적 정책을 구한다. 각 단계에서 Bellman 방정식은 V_k(x)=max_{t∈

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기