결정·관측 오류를 고려한 보안 게임의 수렴 분석
초록
본 논문은 공격자와 방어자 간의 반복 보안 게임을 확률적 가상 플레이(Fictitious Play) 프레임워크로 모델링하고, 플레이어가 의사결정 오류와 상대 행동 관측 오류를 겪을 때의 수렴 특성을 분석한다. 두 행동만을 허용하는 경우에 한해, 오류 보정 전략을 적용하면 게임이 기존의 내시 균형으로 수렴함을 증명한다.
상세 분석
논문은 먼저 전통적인 비제로합 행렬 게임을 두 플레이어(공격자 P₁, 방어자 P₂)가 반복적으로 수행하는 상황을 가정한다. 각 플레이어는 상대의 과거 행동을 관찰해 경험적 빈도 qᵢ(k)를 업데이트하고, 현재 추정된 상대 혼합 전략에 대한 최적 반응 βᵢ(q_{‑i}(k))을 계산한다. 여기서 최적 반응은 엔트로피 항 τᵢH(pᵢ)를 포함한 확률적 보상 함수 Uᵢ(pᵢ,p_{‑i})=pᵢᵀMᵢp_{‑i}+τᵢH(pᵢ)의 최대화 문제로, τᵢ>0이면 소프트맥스 σ(Mᵢp_{‑i}/τᵢ) 형태의 고유한 해를 갖는다.
그 다음 논문은 두 종류의 오류를 도입한다. 첫째, 결정 오류는 플레이어가 의도한 행동 i를 실제로는 확률 행렬 Dᵢ(α 혹은 ε)로 뒤섞인 행동 j로 전환될 확률을 의미한다. Dᵢ가 가역이면 실제 행동 빈도 qᵢ는 의도 빈도 pᵢ와 관계 qᵢ = Dᵢ pᵢ 로 표현된다. 둘째, 관측 오류는 상대의 실제 행동을 관찰할 때 오류 행렬 Fᵢ가 적용되어 관측 빈도 \tilde qᵢ = Fᵢ qᵢ 로 왜곡되는 상황을 말한다. 플레이어는 이러한 왜곡을 사전에 알고 있거나, 추정값 fᵢ(·)을 이용해 보정한다.
오류가 존재함에도 불구하고, 논문은 두 행동(m=n=2) 제한 하에 다음과 같은 수렴 결과를 제시한다. (1) 결정 오류가 알려진 경우: 각 플레이어는 자신의 Dᵢ를 이용해 보정된 최적 반응 pᵢ = Dᵢ⁻¹ σ(Mᵢ D_{‑i} p_{‑i}/τᵢ) 를 계산한다. 연속시간 FP 동역학 \dot pᵢ = βᵢ(p_{‑i}) – pᵢ 에 대해, LᵀM₁L·LᵀM₂L ≠ 0 (L=(1,‑1)ᵀ)이면 limₜ→∞ pᵢ(t) 가 위 보정식의 고정점에 수렴한다. 이는 실제 행동 빈도가 원래 오류 없는 게임의 내시 균형과 동일함을 의미한다.
(2) 관측 오류가 알려진 경우: 플레이어는 관측 행렬 Fᵢ⁻¹ 로 관측 빈도를 복원하고, 복원된 빈도에 대해 기존 소프트맥스 최적 반응을 적용한다. 동일한 비선형 조건 하에 연속시간 FP는 복원된 빈도에 대한 내시 균형으로 수렴한다.
(3) 오류가 알려지지 않은 경우: 플레이어는 오류 보정 없이 표준 stochastic FP 알고리즘을 수행한다. 이때도 평균 동역학은 E
댓글 및 학술 토론
Loading comments...
의견 남기기