그리드 연결 동기버터 제어를 위한 이중 휴리스틱 동적 프로그래밍 접근법
초록
본 논문은 그리드에 연결된 동기버터(synchronverter)의 비선형성, 불확실성 및 비유도성 전력망 환경을 효과적으로 다루기 위해 이중 휴리스틱 동적 프로그래밍(DHP) 기반의 신경망 적응 비평가 설계를 제안한다. 시스템 NN, 행동 NN, 비평가 NN의 3계층 구조를 통해 비용함수를 최적화하고, 시뮬레이션에서 전통적인 PI 제어와 신경망 예측 제어보다 우수한 궤적 최적성을 보인다.
상세 분석
동기버터는 전통적인 전력 전자 변환기를 전통적인 전기 기계와 동일한 동기식 특성을 갖도록 설계한 장치로, 전력 시스템에 저비용·고효율의 분산 전원을 제공한다. 그러나 실제 그리드에 연결될 경우, 전압·주파수 변동, 비유도성(인덕턴스가 낮은) 전력망, 부하의 급격한 변화 등으로 인해 시스템이 강한 비선형성과 파라미터 불확실성을 보인다. 기존의 PI 기반 동기버터 제어기는 고정된 이득값에 의존해 이러한 상황에서 안정성·성능 저하를 겪으며, 특히 전력각(power angle)이나 전압 강하와 같은 미지의 파라미터가 변할 때 적응성이 부족하다.
논문은 이러한 한계를 극복하기 위해 이중 휴리스틱 동적 프로그래밍(DHP) 프레임워크를 도입한다. DHP는 전통적인 동적 프로그래밍(DP)의 계산 복잡성을 완화하면서도 최적 정책을 근사할 수 있는 강화학습 기반 방법이다. 핵심 아이디어는 두 단계의 휴리스틱을 사용해 상태‑가치 함수와 행동‑가치 함수를 각각 근사하는 것이다. 여기서 신경망(Neural Network, NN)이 두 휴리스틱을 구현하는 역할을 수행한다.
제안된 구조는 세 개의 신경망으로 구성된다. 첫 번째인 시스템 NN은 실제 동기버터와 그리드의 동역학을 모델링하여 상태 전이 함수를 근사한다. 두 번째인 행동 NN은 현재 상태에서 가능한 제어 입력(예: 전압 레퍼런스, 주파수 레퍼런스)을 생성하며, 이는 정책(policy) 함수에 해당한다. 세 번째인 비평가 NN은 현재 정책이 가져오는 장기 비용을 평가하는 가치(value) 함수 역할을 한다. 비평가 NN은 TD(Temporal Difference) 오차를 최소화하도록 학습되며, 행동 NN은 비평가 NN이 제공하는 그라디언트를 이용해 정책을 개선한다. 이러한 적응 비평가(adaptive critic) 구조는 모델 기반 DP와 모델 프리 강화학습의 장점을 결합한다는 점에서 의미가 크다.
시뮬레이션에서는 전통적인 PI 제어, 신경망 기반 예측 제어(NN‑MPC)와 비교한다. 실험 시나리오에는 전압 강하, 전력각 급변, 비유도성 그리드(저인덕턴스) 등이 포함되었다. 결과는 DHP 기반 제어기가 전압·주파수 복원 시간, 오버슈트, 그리고 총 비용 함수값 측면에서 모두 우수함을 보여준다. 특히 비평가 NN이 제공하는 장기 비용 정보를 활용함으로써 제어 입력이 사전에 과도하게 보정되는 현상을 방지하고, 시스템이 보다 부드러운 궤적을 따라가도록 만든다.
하지만 논문에도 몇 가지 한계가 존재한다. 첫째, 신경망 학습에 필요한 데이터가 시뮬레이션 기반이므로 실제 현장 적용 시 데이터 수집 및 온라인 학습에 대한 추가 검증이 필요하다. 둘째, DHP 알고리즘의 수렴 특성이 이론적으로 완전히 증명되지 않았으며, 파라미터(학습률, 은닉층 크기 등)의 선택에 따라 성능이 크게 변동할 수 있다. 셋째, 제안된 구조는 3개의 신경망을 동시에 학습해야 하므로 실시간 구현을 위한 계산량이 증가한다. 이러한 점들은 향후 연구에서 하드웨어 가속기(FPGA, GPU) 활용이나 경량화된 네트워크 설계로 보완될 수 있다.
전반적으로 이 논문은 전통적인 제어기 설계가 한계에 부딪힌 현대 전력 전자 시스템에 강화학습 기반 최적 제어를 적용한 선구적인 사례이며, 동기버터와 같은 고비선형, 고불확실성 시스템에 대한 새로운 설계 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기