공유 에이전트 엔티티 그래프를 활용한 다중 에이전트 협동 학습

본 논문은 에이전트와 환경 객체를 정점으로 하는 공유 그래프를 구축하고, 그래프 신경망과 어텐션 기반 메시지 전달을 통해 완전 분산형 다중 에이전트 강화학습을 구현한다. 제안 모델은 에이전트·엔티티 수와 순열에 불변이며, 커리큘럼 학습과 제로샷 전이 능력을 통해 다양한 팀 규모와 환경에 빠르게 적응한다.

저자: Akshat Agarwal, Sumit Kumar, Katia Sycara

공유 에이전트 엔티티 그래프를 활용한 다중 에이전트 협동 학습
**1. 서론** 다중 에이전트 시스템은 통신 제한, 부분 관측, 비정상성 등 복합적인 제약 때문에 전통적인 휴리스틱 설계가 어려운 분야이다. 강화학습을 통한 협동 행동 학습은 이러한 제약을 완화할 수 있지만, 기존 MARL 접근법은 (1) 환경을 블랙박스로 취급해 구조적 정보를 활용하지 못하고, (2) 중앙집중형 critic을 사용해 에이전트 수가 변할 때 정책 재학습이 필요하며, (3) 순열 불변성을 보장하지 못해 팀 규모가 바뀔 때 성능이 급격히 저하되는 문제점을 가진다. **2. 관련 연구** Independent Q‑learning, MADDPG, COMA, VDN, Q‑Mix 등은 중앙집중형 critic 또는 개별 가치 함수 분해를 통해 학습을 진행했지만, 그래프 구조를 명시적으로 모델링하지 않는다. CommNet과 VAIN은 연속형 메시지 전달을 도입했지만, 에이전트 간 평균·어텐션 집계만을 사용해 환경 엔티티와의 구조적 관계를 반영하지 못한다. 최근 DGN은 그래프 기반 메시지 전달을 시도했지만, 통신 범위를 고정하고 중앙집중형 실행을 전제로 한다. **3. 방법** - **3.1 에이전트‑엔티티 그래프 정의**: 정점 V는 에이전트와 정적 환경 엔티티(랜드마크, 장애물 등)로 구성하고, 두 정점 사이에 통신 가능성이 있으면 에지 E를 만든다. 엔티티는 에피소드 시작 시 위치가 주어지며, 에이전트는 모든 엔티티의 위치를 알 수 있다(완전 연결 혹은 거리 제한 두 경우). - **3.2 메시지 전달 메커니즘** - *엔티티 메시지 패싱*: 각 엔티티 l에 대해 위치 Xₗᵢ를 인코더 fₑ로 임베딩 eₗᵢ로 변환하고, 스케일드 닷‑프로덕트 어텐션을 통해 eₗᵢ를 가중합해 고정 차원의 환경 임베딩 Eᵢ를 만든다. 이는 엔티티 수가 변해도 동일 차원을 유지한다. - *에이전트 간 통신*: 에이전트 i는 자신의 상태 인코딩 Uᵢ와 환경 임베딩 Eᵢ를 결합해 hᵢ를 만든다. 모든 이웃 j∈N(i)는 hⱼ를 통해 키 Kⱼ, 쿼리 Qⱼ, 밸류 Vⱼ를 생성하고, i는 Qⱼ·Kᵢ를 정규화한 softmax 가중치 wᵢⱼ로 Vⱼ를 가중합한다. 다중 홉(K 라운드) 메시지 전달을 통해 그래프가 희소해도 정보가 전파된다. - *정책·가치 추정*: 최종 hᵢ와 어텐션 결과 Vᵢᶠ를 결합해 정책 네트워크와 가치 네트워크에 입력하고, PPO를 이용해 엔드‑투‑엔드 학습한다. 파라미터는 모든 에이전트가 공유하므로, 동일 구조의 팀이라면 개별 파라미터 차이가 없다. - **3.3 커리큘럼 학습 및 제로샷 전이** 수량·순열 불변성을 활용해 작은 팀(예: M=3)에서 학습된 정책을 초기값으로 사용해 팀 규모를 점진적으로 늘린다. 추가 학습 없이도 새로운 팀 규모와 엔티티 배치에 바로 적용 가능하며, 이는 제로샷 전이 성능으로 검증된다. **4. 실험** - **환경**: Multi‑Agent Particle Environment에서 2D 이중 적분 동역학을 갖는 에이전트를 사용한다. - **과제**: (1) 커버리지 – M개의 에이전트가 M개의 랜드마크에 서로 다른 위치로 배치, (2) 포메이션 – M개의 에이전트가 하나의 랜드마크를 중심으로 정다각형을 형성, (3) 라인 컨트롤 – 두 랜드마크 사이에 에이전트가 균등히 배치. - **비교 대상**: MADDPG, COMA, VDN, Q‑Mix, DGN 등 기존 최첨단 MARL 방법. - **결과**: 제안 모델은 모든 과제에서 평균 성공률이 90% 이상이며, 학습 수렴 속도도 기존 방법보다 30~50% 빠르다. 특히 팀 규모를 3→10으로 확대했을 때 재학습 없이도 성능 저하가 거의 없었고, 무작위 엔티티 위치에 대해서도 제로샷 성공률이 85% 이상이었다. 제한된 통신(거리 기반) 상황에서도 다중 홉 어텐션 덕분에 그래프가 여러 연결 컴포넌트로 분리되는 문제를 완화한다. **5. 논의 및 결론** 공유 에이전트‑엔티티 그래프와 GNN‑기반 어텐션 메시지 전달은 (i) 환경 구조를 명시적으로 활용해 샘플 효율성을 높이고, (ii) 파라미터 공유와 수량·순열 불변성으로 정책 재사용성을 확보하며, (iii) 커리큘럼 학습을 통한 점진적 복잡도 증가에 강인한 학습 과정을 제공한다. 이러한 특성은 실제 로봇 스웜, 무인 차량 플릿, 스마트 센서 네트워크 등에서 제한된 통신·관측 조건 하에 확장 가능한 협동 제어를 구현하는 데 중요한 전진을 의미한다. 향후 연구에서는 동적 엔티티(이동 장애물 등)와 비동질적 에이전트 집합에 대한 확장, 그리고 실제 로봇 하드웨어에의 전이 검증을 목표로 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기