불완전 기억 게임에서 CFR의 무후회 학습

불완전 기억 게임에서 CFR의 무후회 학습

초록

본 논문은 완전 기억 가정이 깨지는 광범위한 게임 클래스에 대해 Counterfactual Regret Minimization(CFR)의 후회 경계 를 최초로 제시한다. 제안된 추상화 방법을 적용하면 메모리 사용량을 크게 줄이면서도 전체 게임에 대한 후회 보장을 얻을 수 있다. 실험은 주사위 포커, 팬텀 틱택토, 블러프 세 도메인에서 수행되었다.

상세 분석

CFR은 각 정보집합(info‑set)마다 반사실적 후회(counterfactual regret)를 누적하고, 이를 기반으로 전략을 업데이트함으로써 T 라운드 후 평균 후회를 O(√T) 수준으로 수렴시키는 알고리즘이다. 기존 이론은 완전 기억(perfect recall) 게임, 즉 플레이어가 과거에 관찰한 모든 신호와 그 순서를 정확히 기억한다는 전제 하에 후회 경계를 증명한다. 그러나 실제 응용에서는 메모리 제약이나 모델링 편의성 때문에 정보를 합치거나 일부 히스토리를 버리는 불완전 기억(imperfect recall) 추상화가 흔히 사용된다. 이러한 경우 기존 CFR의 수렴 보장은 깨지며, 특히 정보집합이 서로 다른 실제 히스토리를 공유하게 되면 전략 업데이트가 비정상적으로 왜곡될 위험이 있다.

논문은 “구조적 불완전 기억”(structurally imperfect recall)이라는 새로운 게임 클래스 정의를 도입한다. 핵심 아이디어는 각 추상화된 정보집합이 원 게임의 여러 실제 정보집합을 포함하되, 이들 사이에 공통된 행동 집합동일한 반사실적 가치를 유지하도록 제한하는 것이다. 이를 수학적으로는 각 추상 정보집합 ( \tilde{I} ) 가 원 게임의 정보집합 집합 ( {I_1,\dots,I_k} ) 를 포함하고, 모든 ( I_j ) 에 대해 행동 ( a ) 의 반사실적 가치 ( \tilde{v}( \tilde{I},a) ) 가 동일하게 정의될 수 있음을 보인다. 이러한 구조적 제약 하에서는 CFR가 각 추상 정보집합에 대해 계산한 후회가 실제 게임의 모든 포함된 정보집합에 대한 후회의 상한이 된다.

구체적으로, 저자들은 다음 두 가지 정리를 증명한다. 첫째, 구조적 불완전 기억 게임에 CFR를 직접 적용했을 때, 전체 게임에 대한 평균 후회 ( \bar{R}_T ) 가 ( O\big(\sqrt{|\tilde{\mathcal{I}}|T}\big) ) 로 제한된다. 여기서 ( |\tilde{\mathcal{I}}| ) 은 추상 정보집합의 개수이며, 이는 원 게임의 정보집합 수보다 훨씬 작을 수 있다. 둘째, 임의의 추상화가 위 구조적 조건을 만족한다면, 추상 게임에 대한 후회 경계가 그대로 원 게임에 적용될 수 있다. 즉, 추상화 과정에서 발생하는 정보 손실이 후회에 미치는 영향을 정량적으로 제어할 수 있다.

이론적 결과를 뒷받침하기 위해 세 가지 도메인에서 실험을 수행했다. 첫 번째는 주사위 포커(die‑roll poker)로, 주사위 결과를 기억하지 않는 추상화를 적용해 메모리 사용량을 90% 이상 절감하면서도 평균 후회 증가율을 1.2배 이하로 유지했다. 두 번째는 팬텀 틱‑택‑토(phantom tic‑tac‑toe)로, 상대의 움직임을 부분적으로만 관찰하는 상황에서 정보집합을 병합했을 때, 학습 속도가 크게 가속화되었으며 최종 전략의 승률 차이는 미미했다. 마지막으로 블러프(Bluff) 게임에서는 행동 공간이 폭넓어 메모리 요구가 급증하는데, 구조적 불완전 기억 추상화를 적용함으로써 메모리 요구를 70% 감소시키면서도 평균 후회가 기존 CFR 대비 5% 정도만 증가했다.

전체적으로 이 논문은 “불완전 기억”이라는 실용적 제약을 이론적으로 정형화하고, CFR가 이러한 제약 하에서도 의미 있는 성능을 보장받을 수 있음을 증명한다. 이는 대규모 게임 AI, 특히 메모리 제한이 심한 모바일 혹은 임베디드 환경에서 CFR 기반 학습을 적용할 수 있는 새로운 길을 열어준다.