잠재 초기 상태 적대적 POMDP를 위한 최소극대 훈련과 견고 정책 설계
초록
본 논문은 에피소드 시작 시 숨겨진 잠재 변수가 한 번만 선택되는 적대적 POMDP를 정의하고, 이를 유한 최소극대 게임으로 전개한다. 이론적으로 잠재 최소극대 원리, 최악의 방어자(Defender) 분포가 극점에 존재함을 증명하고, 근사 최적 반응(ε‑best‑response) 인증식과 유한 표본에 대한 부호 신뢰 구간을 제시한다. 실험은 Battleship 게임을 이용해, 숨겨진 배치 분포를 의도적으로 노출시켜 훈련한 정책이 스트레스(Shift) 분포에서 평균·95% 백분위·CVaR 모두에서 샷 수 차이를 10.3→3.1로 크게 감소시킴을 보여준다. 또한 반복 최적 반응 훈련이 예산에 민감하게 동작함을 정리와 일치시키며, 구현상의 PPO 서러게이트와 표본 노이즈가 결과에 미치는 영향을 논의한다.
상세 분석
이 논문은 “잠재 초기 상태 적대적 POMDP”(adversarial latent‑initial‑state POMDP)라는 새로운 문제 설정을 제안한다. 기존 로버스트 MDP 연구는 전이 확률이나 보상 자체를 변동시키는 반면, 여기서는 에피소드 시작 시 고정된 잠재 변수 z (예: Battleship에서 배치)를 적대자가 선택하도록 제한한다. 이 제한은 전략 공간을 크게 축소시켜, 공격자(Attacker)의 결정론적 히스토리‑종속 정책 집합 Π_det 과 방어자(Defender)의 잠재 분포 다각형 P 사이의 유한 제로섬 게임으로 정확히 변환한다.
핵심 이론적 결과는 잠재 최소극대 원리(Theorem 1) 로, 유한한 T_max, A, O, Z 조건 하에
\
댓글 및 학술 토론
Loading comments...
의견 남기기