행동 게임 이론을 통한 장기 인과 효과 추정

본 논문은 다중 에이전트 경제에서 정책 변화가 장기적으로 미치는 인과 효과를 정의하고 추정하는 새로운 프레임워크를 제시한다. 행동 게임 이론에 기반한 행동 모델과 시간에 따라 행동이 진화하는 잠재적(라티스) 모델을 결합해, 실험 데이터가 짧은 기간에만 존재하더라도 장기 균형 상태에서의 정책 효과를 추정한다. 핵심 가정으로는 행동 집합의 유한성, 초기 행동의 정책 불변성, 그리고 행동 이력에 조건부로 할당이 독립이라는 ‘행동 무시 가능성’이 있다…

저자: Panagiotis (Panos) Toulis, David C. Parkes

행동 게임 이론을 통한 장기 인과 효과 추정
본 논문은 다중 에이전트 경제에서 정책 변화가 장기적으로 미치는 인과 효과를 정의하고 추정하는 새로운 프레임워크를 제시한다. 전통적인 실험 설계, 특히 A/B 테스트는 정책이 적용된 전체 시스템이 안정된 장기 상태에 도달했을 때의 효과를 포착하지 못한다는 한계가 있다. 예를 들어, 광고 경매에서 예약가격을 올리면 단기 매출이 상승하지만, 에이전트가 입찰 전략을 조정하거나 플랫폼을 떠나는 경우 장기 매출은 감소할 수 있다. 이러한 ‘전이 효과’를 정량화하기 위해 저자들은 두 가지 핵심 문제를 제시한다. 첫째, 실험에서는 일부 에이전트만 새로운 정책을 받으므로 전체 에이전트가 새로운 정책을 적용받았을 때의 결과를 외삽해야 한다(정책 할당 간 외삽). 둘째, 관측 기간이 제한돼 있기 때문에 시스템이 장기 균형에 도달했을 때의 결과를 시간 축으로 외삽해야 한다(시간 축 외삽). 이를 해결하기 위해 행동 게임 이론에서 차용한 ‘행동(behavior)’이라는 잠재 변수를 도입한다. 각 에이전트는 유한한 행동 집합 **B** 중 하나를 선택하고, 선택된 행동에 따라 행동 모델 **P(A|B,G)** 로 실제 행동 **A** 를 생성한다. 여기서 **G** 는 정책별 게임 구조(예: 입찰 규칙, 보상 행렬)이다. 행동 자체는 시간에 따라 마코프 구조를 갖는 잠재적 모델 **f** 와 초기 분포 **π** 로 기술된다. 즉, 정책 할당 **Z** 가 주어졌을 때 행동 분포 **β_j(t;Z)** 와 행동에 기반한 집합 행동 **α_j(t;Z)** 를 시뮬레이션할 수 있다. 논문은 세 가지 핵심 가정을 제시한다. 1. **유한 행동 가정**: 행동 집합 **B** 가 고정되고 유한하므로 행동 모델을 확률 행렬 형태로 명시적으로 기술할 수 있다. 이는 베이지안 추정 시 파라미터 차원을 제한해 계산 효율성을 확보한다. 2. **초기 행동 불변성**: 실험 시작 시점 **t=0** 에서 전체 인구 행동 **β(0)** 은 정책 할당에 무관하게 동일하다. 이는 에이전트가 실험 설계에 대한 사전 기대를 갖지 않으며, 초기 상태를 공통 기준점으로 삼아 할당 간 외삽을 가능하게 한다. 3. **행동 무시 가능성**: 정책 할당 **Z** 가 행동 이력 **F_{t-1}** 와 정책 **G_j** 를 조건으로 할 때, 현재 행동 **β_j(t;Z)** 에 독립적이다. 즉, 할당 자체가 추가 정보를 제공하지 않으며, 관측된 행동 이력만으로 미래 행동을 예측할 수 있다. 위 가정 하에 저자들은 베이지안 알고리즘(Algorithm 1)을 설계한다. 알고리즘은 사전 분포에서 시간 모델 파라미터 **φ_j, ψ_j** 를 샘플링하고, 초기 행동 **β_j(0;Z)** 를 추출한다. 이후 마코프 전이 **f** 를 이용해 **β_j(t;Z)** 를 시뮬레이션하고, 행동 모델 **P(A|B,G_j)** 로 최종 행동 집합 **α_j(T;Z)** 를 얻는다. 관측 데이터 **D_j** (단기 행동 시계열)와의 가능도 **P(D_j|B_j,G_j)** 를 가중치로 사용해 각 정책별 기대 수익 **R(α_j(T;Z))** 를 추정하고, 두 정책 간 차이를 장기 인과 효과 **CE(T)** 로 산출한다. 정리 정리 정리(정리 1)는 위 알고리즘이 반복될수록 **μ_j/ν_j** 가 **E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기