편향된 동전으로 승부: 첫 번째 플레이어의 최소 승리 확률 찾기
초록
두 명이 차례로 편향된 동전을 던져 점수를 획득한다. 앞선 플레이어는 α점(뒷면) 또는 α+β점(앞면)을 얻으며, 먼저 n점에 도달하면 승리한다. 논문은 첫 번째 플레이어가 승리할 확률을 정확히 계산하고, 그 확률을 최소화시키는 동전 편향 p를 구한다. 완전 불공정한 동전(p=0 또는 1)에서는 선공이 반드시 이기며, 일반적인 p∈(0,1)에서는 선공이 유리하지만 그 정도는 p에 따라 달라진다. 결과적으로 p = α/(α+β)에서 선공의 이점이 최소가 됨을 보인다.
상세 분석
논문은 먼저 게임을 “현재 점수 차 d(=첫 번째 플레이어의 점수 − 두 번째 플레이어의 점수)”라는 상태 변수로 모델링한다. 한 턴이 끝나면 현재 플레이어는 동전이 앞면이면 α+β점, 뒷면이면 α점을 추가한다. 따라서 d는 한 턴마다 +α 혹은 +(α+β)만큼 변한다. 목표점 n에 도달하면 게임이 종료되므로, d가 n 이상이면 현재 플레이어가 승리하고, d가 −n 이하이면 상대가 승리한다.
이러한 설정에서 현재 플레이어가 d점에서 승리할 확률을 f(d)라 두면, 다음과 같은 일차 동차 재귀식을 얻는다.
f(d) = p·f(d+α+β) + (1−p)·f(d+α) (0 ≤ d < n)
경계 조건은 f(d)=1 (d ≥ n)와 f(d)=0 (d ≤ −n)이다. 위 식은 등비수열 형태의 차분 방정식으로 변환할 수 있다. r = (1−p)/p 라고 두면, f(d)는 r의 거듭제곱 형태로 표현된다. 구체적으로, d를 α의 배수로 나누어 k = ⌊d/α⌋라 하면
f(k) = A·r^{k} + B
여기서 A, B는 경계 조건을 이용해 결정된다. n을 α와 β의 최소공배수 L = lcm(α,α+β) 로 나누어 n = q·α + r₀ (0 ≤ r₀<α) 로 표현하고, q와 r₀를 이용해 A와 B를 구하면 최종적으로
f(0) = \frac{1 - r^{m}}{1 - r^{M}}
가 된다. 여기서 m = ⌈n/(α+β)⌉, M = ⌈n/α⌉이며, r = (1−p)/p이다. 첫 번째 플레이어의 승리 확률 P₁은 바로 f(0)이며, 두 번째 플레이어의 승리 확률은 1−P₁이다. 따라서 첫 번째 플레이어의 이점(advantage) A(p)는
A(p) = P₁ − (1−P₁) = 2·f(0) − 1 = \frac{1 - r^{m}}{1 - r^{M}}·2 − 1.
이 식을 p에 대해 미분하면 A’(p)=0인 점을 찾을 수 있다. r = (1−p)/p 이므로 dr/dp = −1/p². 미분 후 정리하면
A’(p)=0 ⇔ p = \frac{α}{α+β}.
즉, 동전이 앞면(α+β점)보다 뒷면(α점) 쪽으로 더 많이 나오도록 설계될 때, 첫 번째 플레이어의 승리 확률이 최소가 된다. 특수 경우 p=0 또는 p=1에서는 r이 무한대 혹은 0이 되므로 f(0)=1, 즉 선공이 반드시 승리한다는 직관적인 결과와 일치한다.
논문은 또한 수치 실험을 통해 A(p) 곡선이 p=α/(α+β)에서 최소값을 갖고, 그 최소값은 α와 β의 비율에 따라 달라진다는 것을 확인한다. α와 β가 동일하면 p* = ½가 되고, α가 작을수록 p*는 0에 가까워져 앞면이 더 자주 나오는 상황이 최소 이점을 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기