Markovian Persuasion

February 26, 2026

Reading time: 4 minute

...

📝 Abstract

In the classical Bayesian persuasion model an informed player and an uninformed one engage in a static interaction. The informed player, the sender, knows the state of nature, while the uninformed one, the receiver, does not. The informed player partially shares his private information with the receiver and the latter then, based on her belief about the state, takes an action. This action determines, together with the state of nature, the utility of both players. We consider a dynamic Bayesian persuasion situation where the state of nature evolves according to a Markovian law. In this repeated persuasion model an optimal disclosure strategy of the sender should, at any period, balance between getting high stage payoff and future implications on the receivers’ beliefs. We discuss optimal strategies under different discount factors and characterize when the asymptotic value achieves the maximal value possible.

💡 Analysis

🇰🇷 한글로 읽기

📄 Content

클래식 베이즈 설득(classical Bayesian persuasion) 모델에서는 두 명의 행위자가 존재한다. 하나는 정보를 보유하고 있는 ‘송신자(sender)’이며, 다른 하나는 정보를 전혀 갖고 있지 않은 ‘수신자(receiver)’이다. 이 두 행위자는 한 번의 정적(static) 상호작용을 통해 게임을 진행한다. 송신자는 자연 상태(state of nature)라고 불리는 외생적인 변수의 실현값을 정확히 알고 있다. 반면에 수신자는 그 상태에 대한 어떠한 직접적인 관측도 할 수 없으며, 오직 송신자가 제공하는 신호(signal)를 통해서만 상태에 대한 추론을 시도한다.

송신자는 자신의 사적 정보를 완전하게 공개할 수도, 전혀 공개하지 않을 수도 있다. 현실적인 설득 상황에서는 보통 정보를 ‘부분적으로(partially)’ 공유한다는 가정이 사용된다. 즉, 송신자는 사전에 정해진 신호 구조에 따라 상태에 대한 일부 내용만을 선택적으로 전달하고, 그 결과 수신자는 전달받은 신호를 바탕으로 ‘상태에 대한 사후 믿음(posterior belief)’을 형성한다. 수신자는 이 믿음에 기반하여 특정 행동(action)을 선택한다. 이 행동은 단순히 한 번의 선택에 그치는 것이 아니라, 그 행동과 동시에 자연 상태가 결합되어 양쪽 플레이어의 효용 함수(utility function)에 입력된다. 따라서 송신자의 목표는 수신자가 선택하도록 유도하고자 하는 행동을 최대화시키는 방향으로 정보를 설계하는 것이며, 수신자는 자신의 믿음에 따라 기대 효용을 최대화하는 행동을 선택한다.

우리는 위와 같은 정적 모델을 확장하여, 자연 상태가 시간에 따라 변하고, 그 변천이 마코프(Markov) 법칙을 따른다고 가정하는 ‘동적 Bayesian 설득(dynamic Bayesian persuasion)’ 상황을 고려한다. 구체적으로, t = 1, 2, …와 같은 이산 시간 단계가 존재하고, 각 단계마다 자연 상태 θₜ ∈ Θ가 전 단계의 상태 θ₍ₜ₋₁₎에만 의존하는 전이 확률 P(θₜ | θ₍ₜ₋₁₎) 에 의해 진화한다. 이때 송신자는 매 시점 t 마다 현재 관측하고 있는 상태 θₜ를 바탕으로 신호 sₜ를 선택하고, 수신자는 과거에 받은 모든 신호와 현재 신호를 종합하여 시점 t에 대한 사후 믿음 μₜ(·) = Pr(θₜ ∈ · | s₁,…,sₜ) 를 업데이트한다. 그런 다음 수신자는 μₜ에 의존하는 행동 aₜ ∈ A를 선택하고, 그 행동과 θₜ가 결합되어 두 플레이어에게 각각 u_S(aₜ, θₜ), u_R(aₜ, θₜ)와 같은 단계 효용(stage payoff)을 제공한다.

이러한 반복 설득 모델에서 송신자는 ‘최적 공개 전략(optimal disclosure strategy)’을 설계해야 한다. 최적 전략은 단순히 현재 단계에서 얻을 수 있는 기대 단계 효용을 최대화하는 것이 아니라, 현재 단계에서의 정보 공개가 미래 단계에 걸쳐 수신자의 믿음 분포를 어떻게 변화시킬지, 그리고 그 변화가 장기적으로 송신자의 총 효용에 어떤 영향을 미칠지를 동시에 고려해야 한다. 따라서 각 시점 t 에서 송신자는 (i) 현재 단계에서 가능한 높은 단계 이익을 추구하고, (ii) 미래에 수신자가 형성할 믿음이 송신자에게 유리한 방향으로 이동하도록 정보를 조절하는 두 목표 사이에서 ‘균형(balance)’을 잡아야 한다.

우리는 특히 할인 요인 δ ∈ [0, 1) 이 존재하는 경우를 중점적으로 분석한다. 할인 요인은 미래 효용을 현재 효용에 비해 얼마나 낮게 평가하는지를 나타내며, δ 가 0에 가까울수록 송신자는 현재 단계에만 집중하고, δ 가 1에 가까울수록 장기적인 효용을 크게 고려한다. 다양한 δ 값에 따라 최적 전략의 형태가 어떻게 달라지는지를 이론적으로 탐구하고, 각각의 경우에 대해 베스트 응답(best response) 구조와 신호 설계의 특징을 상세히 기술한다. 또한, 무한히 반복되는 게임의 경우 ‘점근적 가치(asymptotic value)’—즉, 시간 t 가 무한대로 갈 때 평균적으로 얻을 수 있는 효용의 한계값—가 존재한다는 점에 주목한다. 우리는 이 점근적 가치가 이론적으로 가능한 최대값, 즉 송신자가 모든 정보를 완벽히 통제하고 수신자를 완전히 원하는 행동으로 유도할 수 있을 때 달성되는 효용과 일치하는 조건을 명시적으로 규정한다. 이러한 조건은 (1) 상태 전이 행렬이 특정 형태를 만족하고, (2) 할인 요인이 충분히 높으며, (3) 신호 공간과 행동 공간이 충분히 풍부하여 복잡한 신호 패턴을 구현할 수 있는 경우에 충족된다.

요약하면, 본 연구는 마코프적 상태 전이를 갖는 동적 베이즈 설득 모델에서 송신자의 최적 정보 공개 정책을 시간에 따라 어떻게 설계해야 하는지를 체계적으로 분석한다. 다양한 할인 요인 하에서의 최적 전략을 제시하고, 점근적 가치가 최대값에 도달하는 충분조건을 제시함으로써, 장기적인 설득 과정에서 정보와 믿음의 상호작용이 효용에 미치는 영향을 깊이 있게 이해할 수 있는 이론적 토대를 제공한다.

📄 Original ArXiv PDF

Markovian Persuasion

📝 Abstract

💡 Analysis

📄 Content

Table of Contents

Table of Contents

📝 Abstract

💡 Analysis

📄 Content

Start searching

No results found