역방향 균형 문제 계산적 합리화

**1. 연구 배경 및 동기** 전통적인 역최적제어는 단일 에이전트가 최적이라고 가정되는 행동을 관찰해 숨겨진 효용 함수를 복원한다. 그러나 실제 사회·경제·교통 시스템은 여러 주체가 서로의 행동을 예측하며 전략을 수정하는 **다중 에이전트** 환경이다. 여기서는 “내가 최적이라면 다른 사람도 최적일 것”이라는 가정이 깨지며, 효용 자체가 관측되지 않으므로 새로운 최적성 기준이 필요하다. **2. 관련 연구와 차별점** 경제학·계량경제학에서는 구조적 모형을 통해 시장 균형을 추정하지만, 샘플 복잡도와 계산 효율성이 제한적이다. 인지 과학·결정 이론은 인간의 제한된 합리성(bounded rationality)을 강조하지만, 주로 실험 설계에 초점을 맞춘다. 머신러닝 커뮤니티는 주로 **단일 에이전트**의 IRL/IOC 기법에 집중해 왔으며, 전략적 상호작용을 다루지는 못한다. 본 논문은 이 세 분야를 연결해 **후회(regret)** 를 다중 에이전트 최적성의 대리 변수로 삼고, **최대 엔트로피** 원칙을 적용해 불확실성을 최소화한다는 점에서 독창적이다. **3. 기본 정의와 수학적 설정** - 게임 Γ 은 플레이어 집합 N, 행동 집합 A 및 효용 특성 함수 uᵢ 으로 정의된다. 효용은 선형 파라미터 w 에 대해 uᵢ(a|w)=⟨uᵢ(a), wᵢ⟩ 형태를 가진다. - 편향 fᵢ: Aᵢ→Aᵢ 는 한 플레이어가 자신의 행동을 바꾸는 함수이며, **스위치 편향**과 **고정 편향** 두 종류가 있다. - 즉시 후회 r_f(a)=uᵢ(fᵢ(a))−uᵢ(a) 이며, 기대 후회는 공동 전략 σ 에 대해 r_f(σ)=E_{a∼σ}

역방향 균형 문제 계산적 합리화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기