암묵적 협력을 활용한 다중 에이전트 강화학습 기반 분산형 지역 에너지 시장

초록

본 연구는 명시적 피어‑투‑피어 통신 없이도 지역 에너지 시장에서 최적에 가까운 협조를 구현할 수 있는 ‘암묵적 협력’ 프레임워크를 제안한다. 문제를 부분관측 마르코프 결정 과정으로 모델링하고, 시스템 수준 핵심 성과 지표(KPI)를 스티그머지 신호로 활용해 전역 상태를 추론·반응하도록 다중 에이전트 강화학습을 설계하였다. IEEE 34‑노드 토폴로지를 3×3 요인 설계로 실험했으며, 학습 패러다임(CTCE, CTDE, DTDE)과 알고리즘(PPO, APPO, SAC)을 조합한 결과 APPO‑DTDE가 중앙집중식 기준 대비 91.7 %의 협조 점수를 달성하며 최적 구성을 보였다. 그러나 효율성과 안정성 사이에 트레이드‑오프가 존재한다. 중앙집중식 기준은 거래 비율 0.6으로 할당 효율을 극대화하지만, 완전 분산 DTDE는 전력망 균형 변동성을 31 % 감소시켜 물리적 안정성을 향상시킨다. 또한, 분산 에이전트가 혼잡 페널티를 최소화하기 위해 공간적으로 클러스터링되는 현상이 관찰되었다. SAC은 하이브리드 환경에서 우수했으나, 엔트로피 기반 불안정성으로 완전 분산 상황에서는 실패하였다. 연구 결과는 스티그머지 신호만으로도 복잡한 전력망 조정이 가능함을 증명하며, 프라이버시 보존과 통신 인프라 비용 절감 측면에서 강력한 대안을 제시한다.

상세 요약

이 논문은 지역 에너지 시장에서 탈중앙화된 운영을 실현하기 위한 새로운 패러다임을 제시한다. 기존 연구들은 주로 중앙집중식 최적화 혹은 직접적인 피어‑투‑피어 메시징을 통해 에너지 거래와 전압·주파수 조정을 수행했지만, 이러한 접근법은 통신 인프라 비용 상승, 데이터 프라이버시 침해, 그리고 시스템 규모가 확대될수록 발생하는 복잡도 증가라는 한계를 안고 있다. 저자들은 이러한 문제점을 극복하고자 ‘암묵적 협력(implicit cooperation)’이라는 개념을 도입한다. 이는 개별 에이전트가 직접적인 정보 교환 없이도 시스템 수준 KPI—예를 들어 전체 전력 균형, 라인 손실, 혼잡 비용 등—를 관측하고, 이를 스티그머지(환경에 남기는 흔적) 신호로 활용해 전역 상태를 추정하도록 설계된 메커니즘이다.

문제 정의는 부분관측 마르코프 결정 과정(POMDP)으로 정형화된다. 각 에이전트는 자신의 로컬 관측(예: 배터리 SOC, 로드 프로파일)과 전역 KPI를 동시에 입력받아 행동을 선택한다. 이때 행동은 로컬 발전·저장·소비 조절 및 거래 제안으로 구성된다. 학습 프레임워크는 세 가지 패러다임을 비교한다. CTCE(centralized training, centralized execution)는 전통적인 중앙집중식 학습·실행으로, 모든 에이전트가 완전 정보를 공유한다. CTDE(centralized training, decentralized execution)는 학습 단계에서 전역 정보를 활용하지만 실행 단계에서는 로컬 정보만 사용한다. DTDE(decentralized training, decentralized execution)는 학습·실행 모두에서 오직 로컬 관측과 스티그머지 신호만을 사용한다.

알고리즘 측면에서는 PPO, APPO(분산형 PPO), SAC를 적용했으며, 3×3 요인 설계(3가지 패러다임 × 3가지 알고리즘)로 IEEE 34‑노드 배전망을 시뮬레이션했다. 실험 결과는 두드러진 패턴을 보인다. 첫째, APPO‑DTDE 조합이 전체 협조 점수에서 91.7 %를 기록하며 중앙집중식 CTCE에 근접했다. 이는 스티그머지 신호만으로도 충분히 전역 정보를 재구성할 수 있음을 의미한다. 둘째, 효율성(거래 비율)과 물리적 안정성(그리드 균형 변동성) 사이에 명확한 트레이드‑오프가 존재한다. CTCE는 거래 비율 0.6으로 할당 효율을 최대로 끌어올리지만, 전압·주파수 변동성이 상대적으로 크다. 반면 DTDE는 거래 비율이 다소 낮아도 전력 흐름의 변동성을 31 % 감소시켜 운영 안정성을 크게 향상시킨다. 이는 전력망 운영자에게 예측 가능한 ‘수입‑편향’ 부하 프로파일을 제공함으로써 규제 및 보조 서비스 비용을 절감할 수 있음을 시사한다.

또한, 토폴로지 분석 결과는 흥미로운 ‘공간적 클러스터링’ 현상을 드러낸다. 분산된 에이전트들이 네트워크 상에서 서로 가까운 노드끼리 거래를 집중함으로써 라인 혼잡 페널티를 최소화하고, 자연스럽게 지역별 거래 커뮤니티가 형성된다. 이는 기존의 중앙집중식 시장 설계에서 인위적으로 정의하던 ‘지역 구역’과는 다른, 데이터‑드리븐 자율적 구역화라 할 수 있다.

SAC은 하이브리드(CTDE) 환경에서 높은 샘플 효율과 탐색 능력을 보여주었지만, DTDE 상황에서는 엔트로피 기반 정책이 과도한 탐색을 야기해 시스템 안정성을 해치는 것으로 나타났다. 이는 완전 분산 환경에서 정책의 불확실성을 제어할 메커니즘이 추가로 필요함을 암시한다.

전체적으로 이 연구는 (1) 스티그머지 신호를 통한 암묵적 협력이 실제 전력망 조정에 적용 가능함, (2) 완전 분산 학습이 중앙집중식에 비해 효율성은 다소 낮지만 물리적 안정성 및 프라이버시 측면에서 큰 장점을 제공함, (3) 에이전트 간 자율적 클러스터링이 네트워크 혼잡 완화에 기여한다는 점을 입증한다. 다만, 스케일‑업 시 신호 전달 지연, KPI 설계의 복잡성, 그리고 정책 불안정성 문제는 추가 연구가 필요하다. 향후 연구에서는 다중 KPI 통합, 비동기 학습, 그리고 실시간 운영 테스트베드 적용을 통해 실제 배전망에의 적용 가능성을 검증할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)