협동 탐색을 위한 다중에이전트 내재 보상 프레임워크

본 논문은 희소 보상이 존재하는 협동 다중에이전트 환경에서, 에이전트들이 서로의 탐색 정보를 공유하여 협조적으로 탐색하도록 설계된 내재 보상 함수를 제안한다. 여러 종류의 내재 보상(독립, 최소, 평균‑커버링, 버로잉 등)을 동시에 학습하고, 상위 메타‑정책이 상황에 맞는 보상‑정책 조합을 동적으로 선택하도록 하는 계층적 구조를 도입한다. 공유 리플레이 버퍼와 오프‑폴리시 학습을 활용해 샘플 효율성을 높였으며, GridWorld와 3D Viz‑…

저자: Shariq Iqbal, Fei Sha

협동 탐색을 위한 다중에이전트 내재 보상 프레임워크
**1. 서론 및 배경** 희소 보상이 존재하는 강화학습 문제는 탐색이 핵심 난제이며, 단일 에이전트에서는 내재 보상(예: 카운트 기반 보상, 예측 오차 기반 보상)으로 이를 완화한다. 그러나 다중에이전트 협동 환경에서는 각 에이전트가 독립적으로 탐색하면 중복 탐색이 발생하고, 협업이 요구되는 작업에서는 효율이 급격히 떨어진다. 저자는 이러한 문제를 해결하기 위해 “다중에이전트 내재 보상”이라는 개념을 도입하고, 에이전트 간 탐색 정보를 공유해 협조적인 탐색을 유도한다. **2. 다중에이전트 내재 보상 설계** 각 에이전트 i는 자체적인 새로움 함수 f_i(o_i) 를 가지고, 이는 관측 o_i 가 얼마나 새로운지를 나타낸다(예: 역카운트, 신경망 기반 예측 오차). 모든 에이전트는 서로의 f_j(o_i) 값을 공유하고, 이를 기반으로 보상 함수 g_i(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기