전략적 가르침과 학습의 한계

초록

본 논문은 모든 유한 게임에서 내쉬 균형에 수렴하는 비연계 학습 휴리스틱이 존재하더라도, 그런 휴리스틱을 실제로 채택할 동기가 없으며, 진화적으로도 안정되지 않음을 증명한다. 대신 플레이어는 학습자를 전략적으로 가르쳐 스택켈버그 리더의 보상을 확보하려는 유인이 존재한다. 이 불가능성은 잠재 게임, 전략적 보완 게임, 2×2 게임 등 다양한 게임 클래스에서도 유지된다.

상세 분석

논문은 먼저 “비연계(uncoupled) 학습 휴리스틱”이라는 개념을 정의한다. 이는 각 플레이어가 자신의 보상 함수만을 이용해 행동을 업데이트하고, 다른 플레이어의 보상 구조에 대한 정보를 필요로 하지 않는 알고리즘을 의미한다. 기존 문헌에서는 이러한 휴리스틱이 모든 유한 게임에서 내쉬 균형에 수렴한다는 존재론적 결과가 알려져 있다. 그러나 저자는 이러한 휴리스틱이 실제 경제·사회적 상황에서 채택될 수 있는지를 ‘전략적 동기’와 ‘진화 안정성’이라는 두 축에서 검증한다.

첫 번째 주요 결과는 “채택 인센티브 부재” 정리이다. 저자는 임의의 비연계 학습 휴리스틱 𝜙가 모든 게임에서 내쉬 균형에 수렴한다고 가정한다면, 특정 게임 (예: 스택켈버그 구조를 갖는 2인 게임)에서 한 플레이어가 𝜙를 따르는 상대에게 자신의 행동을 조작함으로써 스택켈버그 리더가 얻는 보상보다 높은 기대값을 달성할 수 있음을 보인다. 즉, 𝜙를 그대로 따르는 것이 비용 효율적이지 않으며, 전략적으로 “가르치는” 행위가 우월한다는 것이다.

두 번째는 “진화적 불안정성” 정리이다. 복제자 동역학(replication dynamics) 혹은 베이즈 진화 모델을 적용했을 때, 𝜙를 따르는 집단은 가르치는 전략을 채택한 소수 집단에 의해 침식된다. 이는 𝜙가 집단 수준에서 안정적인 전략이 될 수 없음을 의미한다.

세 번째는 “학습 자체 가능성(learnability)”에 대한 부정이다. 메타학습 단계에서 플레이어가 어떤 휴리스틱을 선택해야 할지 학습하려 할 때, 𝜙를 선택하는 것이 기대 보상 면에서 지배적이지 않다. 따라서 𝜙는 메타 수준에서도 “학습될 수 없는” 전략으로 분류된다.

이러한 부정 결과는 여러 특수 게임 클래스에 대해 추가 검증된다. 잠재 게임(potential games)에서는 잠재함수의 존재가 학습을 ‘좋게’ 만든다고 알려졌지만, 저자는 여전히 비연계 휴리스틱이 전략적으로 가르치는 행위에 의해 대체될 수 있음을 보인다. 전략적 보완 게임과 2×2 게임에서도 동일한 논리가 적용된다.

마지막으로 저자는 “전략적으로 사소한(strategically trivial) 게임”에 한정하면 비연계 휴리스틱이 채택될 가능성을 보이는 긍정적 결과를 제시한다. 그러나 이 클래스 밖의 일반적인 게임을 포함하면 다시 불가능성이 드러난다. 전체적으로 논문은 비연계 학습 이론의 존재론적 가능성을 넘어, 실제 전략적 환경에서의 실용성을 비판적으로 재검토한다는 점에서 학습·게임 이론 분야에 중요한 통찰을 제공한다.