정책 정규화로 다중 에이전트 협동 촉진
본 논문은 다중 에이전트 강화학습에서 협동 행동을 효율적으로 탐색하기 위해 두 가지 정책 정규화 기법, TeamReg와 CoachReg를 제안한다. TeamReg는 에이전트 간 행동 예측 가능성을 손실로 활용하고, CoachReg는 중앙 코치를 통해 동기화된 서브‑정책 선택을 유도한다. 이 방법들을 CTDE 기반 MADDPG에 통합해 연속 제어와 이산 행동 환경에서 실험했으며, 협동이 요구되는 여러 벤치마크에서 성능 향상을 확인하였다.
저자: Julien Roy, Paul Barde, Felix G. Harvey
본 논문은 다중 에이전트 강화학습(MARL)에서 협동이 요구되는 과제의 학습 효율성을 높이기 위해 정책 수준에서의 정규화 기법을 제안한다. 기존의 중앙집중식 훈련·분산 실행(CTDE) 접근법은 공동 행동이 높은 보상을 가져올 때만 자연스럽게 협동을 학습하지만, 협동 행동이 희소하거나 탐색이 어려운 경우에는 성능이 급격히 저하된다. 이를 해결하고자 저자들은 두 가지 ‘협동 프록시’를 정의한다. 첫 번째는 “팀 행동 예측 가능성”이며, 이는 한 에이전트가 다른 에이전트의 행동을 자신의 관측만으로 예측할 수 있어야 협동이 가능하다는 가정이다. 두 번째는 “동기화된 서브‑정책 선택”이며, 이는 에이전트들이 동일한 상황에서 동일한 행동 모드를 선택해야 효율적인 협동이 이루어진다는 전제다.
**TeamReg**
TeamReg는 각 에이전트에 추가적인 예측 헤드를 부착하고, 해당 헤드가 다른 에이전트의 행동을 예측하도록 학습한다. 연속 제어에서는 MSE 손실, 이산 행동에서는 KL 발산을 사용한다. 예측 손실을 최소화하는 동시에 기존 정책 그래디언트 손실을 최적화함으로써, 에이전트는 ‘예측 가능하고 예측 가능한’ 행동을 취하도록 유도된다. 정규화 강도는 λ₁(자신이 팀원을 얼마나 잘 예측하는가)과 λ₂(다른 에이전트가 자신을 얼마나 잘 예측하는가)로 조절한다.
**CoachReg**
CoachReg는 중앙 코치 모델(파라미터 ψ)을 도입해 현재 전역 관측으로부터 정책 마스크 uᶜₜ를 생성한다. 마스크는 K‑차원 원-핫 벡터이며, 정책 네트워크의 첫 은닉층에 구조적 드롭아웃 형태로 적용돼 서브‑정책을 전환한다. 각 에이전트는 자신의 관측으로부터 마스크를 샘플링하고, 코치가 제시한 마스크와 KL 발산을 최소화하도록 정규화한다. 코치는 (1) 마스크를 적용했을 때 반환을 극대화하고 (2) 에이전트가 마스크를 정확히 예측하도록 학습한다. 학습 단계에서만 코치가 존재하고, 실행 단계에서는 에이전트가 자체 마스크를 사용한다. 정규화 강도는 λ₁(마스크 일치 손실)과 λ₂(코치 마스크를 이용한 정책 그래디언트)로 조절한다.
**실험**
저자들은 네 가지 연속 제어 협동 과제(희소 보상, 다양한 협동 수준)와 Google Research Football(이산 행동)에서 MADDPG에 TeamReg와 CoachReg를 각각 적용하였다. 결과는 다음과 같다.
- TeamReg는 협동 구조가 명확히 정의된 환경(예: 두 차가 동시에 같은 방향으로 움직여야 하는 과제)에서 학습 속도를 2~3배 가속화하고, 최종 성공률을 평균 8% 향상시켰다. 그러나 적대적 요소가 포함된 환경에서는 과도한 행동 제약으로 성능이 감소하였다.
- CoachReg는 서브‑정책 동기화가 중요한 상황(예: 경기 전술 전환, 역할 교환)에서 일관된 성능 향상을 보였으며, Football 환경에서는 평균 득점률을 12% 이상 증가시켰다.
- Ablation 연구에서 λ 파라미터를 변동시켰을 때 정규화 강도가 너무 약하면 협동 효과가 미미하고, 너무 강하면 탐색이 억제되는 현상이 확인되었다. 또한, 팀 예측 정확도와 실제 협동 행동(동시 이동, 역할 교환) 사이에 높은 상관관계가 있음을 시각화하였다.
**한계 및 향후 연구**
TeamReg는 행동이 비동기적이거나 팀원 간 상호 의존성이 낮은 환경에서 오히려 탐색을 방해할 수 있다. CoachReg는 마스크 수 K와 코치 모델 복잡도에 민감해 적절한 하이퍼파라미터 선택이 필요하다. 또한, 현재는 중앙 코치를 학습에만 사용하고 있으나, 실제 배포 시에도 코치를 유지하는 분산 코치 구조에 대한 탐색이 남아 있다.
**결론**
정책 정규화를 통한 협동 편향은 MARL에서 탐색 효율성을 크게 개선할 수 있음을 실험적으로 입증하였다. TeamReg와 CoachReg는 각각 행동 예측 가능성과 서브‑정책 동기화를 촉진함으로써, 기존 CTDE 기반 알고리즘에 비교적 간단히 통합될 수 있다. 향후 연구에서는 이러한 정규화를 다른 MARL 프레임워크와 결합하고, 복합적인 협동·경쟁 환경에서의 일반화 가능성을 탐구할 예정이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기