협업형 인공지능 방어 다중 에이전트 액터크리틱으로 사이버 위협 자동 대응
초록
본 논문은 다중 에이전트 심층 강화학습(MADRL) 중 액터‑크리틱 계열을 사이버 방어에 적용한다. 중앙집중식 비평가와 분산된 정책을 결합한 CTED(중앙학습·분산실행) 구조를 사용해, 부분관측 환경인 CybORG 시뮬레이터에서 다섯 개의 방어(블루) 에이전트가 협력적으로 위협을 탐지·제거하도록 학습한다. A2C와 PPO 기반의 독립형·중앙집중형 변형을 비교 실험한 결과, 중앙비평가를 활용한 MAPPO가 가장 높은 보상과 안정적인 학습 곡선을 보이며, 기존 가치 기반 방법보다 확장성과 샘플 효율성에서 우수함을 입증한다.
상세 분석
이 연구는 사이버 방어라는 복합적이고 동적인 도메인에 다중 에이전트 강화학습을 적용하기 위한 체계적인 프레임워크를 제시한다. 먼저 기존 침입 탐지 시스템이 규칙 기반이거나 단일 에이전트 기반 딥러닝에 머물러 있어 비정상 트래픽에 대한 높은 오탐률과 확장성 한계를 보인다는 점을 지적한다. 강화학습은 장기적인 보상 최적화를 목표로 하여 순차적 의사결정에 강점을 가지며, 특히 액터‑크리틱 구조는 정책(액터)과 가치(크리틱)를 동시에 학습함으로써 연속·이산 행동 모두를 효율적으로 다룰 수 있다.
논문은 두 가지 주요 알고리즘, A2C(Advantage Actor‑Critic)와 PPO(Proximal Policy Optimization)를 선택한다. A2C는 온‑폴리시 방식으로 샘플 효율성이 낮지만 구현이 간단하고, PPO는 클리핑 기법을 통해 정책 업데이트 시 급격한 변화를 억제해 학습 안정성을 크게 향상시킨다. 다중 에이전트 상황에서 비평가를 중앙집중식으로 설계하고, 각 에이전트는 자신의 로컬 관측에 기반해 행동을 선택하도록 함으로써 ‘중앙학습·분산실행(CTED)’ 패러다임을 구현한다. 이는 독립 학습(IL)에서 발생하는 비정상성 문제를 완화하고, 에이전트 간 협업을 촉진한다.
알고리즘 구현은 PettingZoo 인터페이스를 통해 CybORG 환경에 적용된다. 환경은 네 개의 서브넷으로 구성된 기업 네트워크를 모델링하고, 레드(공격)와 그린(일반 사용자) 에이전트가 존재한다. 블루 에이전트는 5명으로, 각 서브넷에 하나씩 배치되어 로컬 관측만을 이용한다. 행동 집합은 모니터링, 분석, 디코이 배치, 제거, 복구, 트래픽 차단·허용 등 10여 가지이며, 보상 구조는 정상 운영 유지와 레드 에이전트 억제에 초점을 맞춘 음·양 보상으로 설계되었다.
실험에서는 독립형 A2C/IPPO와 중앙비평가 기반 MAAC/MAPPO 네 가지 변형을 비교한다. 결과는 중앙비평가를 사용한 MAPPO가 가장 높은 평균 누적 보상과 빠른 수렴 속도를 보이며, 특히 레드 에이전트의 침투 시도를 효과적으로 차단한다. 반면 독립형 방법은 비정상성으로 인해 학습이 불안정하고, 보상 변동이 크게 나타난다. 또한 가치 기반 알고리즘(QMIX 등)과 비교했을 때, 액터‑크리틱 계열은 파라미터 공유와 연속 행동 처리 능력 덕분에 확장성에서 우수함을 확인한다.
한계점으로는 시뮬레이션 기반 평가에 머물러 실제 네트워크 환경에서의 적용 가능성을 검증하지 않았으며, 공유 보상 설계가 모든 상황에 일반화되기 어려울 수 있다는 점을 들 수 있다. 향후 연구에서는 비동기적 보상 구조, 이질적 에이전트 간 협업, 그리고 실제 사이버 운영 데이터와의 연동을 통해 실용성을 높이는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기