다중 에이전트 경쟁 강화학습을 위한 반사실 사고 모델
본 논문은 인간의 반사실 사고(Counterfactual Thinking)를 모방한 다중 에이전트 심층 강화학습 프레임워크를 제안한다. 에이전트는 병렬 정책 구조를 통해 여러 후보 행동(의도 행동)을 생성하고, 현재 환경 이해를 바탕으로 각 후보에 대한 보상과 후회를 추정한다. 추정된 후회는 시나리오 기반 손실에 연결되어 정책 업데이트에 동시에 활용된다. 워터월드와 추격-회피 환경에서 실험한 결과, 제안 모델은 기존 MARL 방법보다 누적 보상…
저자: Yue Wang, Yao Wan, Chenwei Zhang
본 논문은 다중 에이전트 환경에서 경쟁력을 강화하기 위해 인간의 반사실 사고(Counterfactual Thinking) 메커니즘을 모방한 새로운 심층 강화학습 프레임워크를 제안한다. 기존의 다중 에이전트 강화학습(MARL) 방법들은 주로 탐험‑활용 전략에 의존하거나, 중앙 집중형 비평가를 사용해 각 에이전트의 정책을 독립적으로 최적화한다. 그러나 이러한 접근법은 (1) 다른 에이전트와의 상호작용을 충분히 고려하지 못하고, (2) 행동‑보상 쌍이 희소한 상황에서 학습 효율이 떨어지는 문제점을 안고 있다.
**문제 정의와 배경**
논문은 N‑에이전트 마르코프 게임을 기반으로, 각 에이전트 i가 상태 s∈S에서 행동 a_i∈A_i를 선택하고 보상 r_i(s,a_i)를 받는 전형적인 설정을 사용한다. 목표는 각 에이전트가 누적 할인 보상 R_i=∑_{t=0}^{∞}γ^t r_i^t 를 최대화하는 것이다. 기존 단일 에이전트 강화학습은 다른 에이전트의 정책을 무시하고 최적 정책 µ(s)만을 학습한다. 다중 에이전트 상황에서는 이러한 접근이 경쟁적 상호작용을 반영하지 못해 성능이 저하된다.
**제안 모델: Counterfactual Thinking Agent (CFT)**
CFT는 오프‑폴리시 액터‑크리틱 구조를 채택하면서, 기존 액터‑크리틱과는 달리 ‘병렬 정책(Parallel Policies)’이라는 새로운 구성 요소를 도입한다. 구체적으로, 에이전트는 K개의 독립적인 정책 네트워크 µ_k(s|θ_k) (k=1…K)를 유지한다. 새로운 상태 s가 관측되면, 각 정책은 후보 행동 a_k=µ_k(s) 를 생성한다.
1. **후회(Regret) 추정**: 각 후보 행동에 대해 현재 크리틱 Q̂(s,a_k) 를 사용해 기대 보상을 추정한다. 실제 환경에서 선택된 행동 a*에 대해 실제 보상 r_t 를 관측하고, 후회 r_k = Q̂(s,a_k) – r_t 로 정의한다. 이는 “만약 다른 행동을 선택했더라면 어땠을까?”라는 반사실 질문에 대한 정량적 답변이다.
2. **시나리오 기반 손실**: 후회 벡터를 이용해 시나리오 기반 손실 L_scenario = max_k r_k – min_k r_k 와 같은 max‑min 형태로 정의한다. 이 손실은 가장 큰 후회를 가진 정책을 억제하고, 가장 작은 후회를 가진 정책을 강화하는 방향으로 파라미터를 업데이트한다.
3. **중심화된 비평가와 보상 재조정**: 각 에이전트의 Q‑값은 Q_i(s,a)=γ Q_i(s',a')+r_i(s,a) 로 정의되며, 여기서 r_i는 재조정된 보상 r'_i = (1−α) r_i + α·(− r̂_i/(N−1)) 로 계산된다. α∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기