포트 해밀토니안 시스템을 위한 강화학습 기반 에너지 밸런싱 제어

포트 해밀토니안 시스템을 위한 강화학습 기반 에너지 밸런싱 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 포트-해밀토니안 시스템에 적용되는 에너지 밸런싱 패시비티 기반 제어(EB‑PBC)를 강화학습, 특히 액터‑크리틱 방법과 결합한다. 제어법칙을 PDE 매칭 조건을 유지하면서 파라미터화하고, 전역적인 목표 해밀토니안을 미리 지정할 필요 없이 성능 목표와 입력 포화와 같은 비선형 제약을 포함한다. 학습된 파라미터는 에너지 쉐이핑과 감쇠 주입 형태로 해석 가능하며, 시뮬레이션 및 실제 펜듈럼 스윙업 실험에서 근접 최적 제어기를 성공적으로 도출한다.

상세 분석

포트‑해밀토니안(Port‑Hamiltonian, PH) 프레임워크는 물리적 시스템을 저장 에너지와 교환 포트를 통해 기술함으로써 자연스럽게 패시비티와 안정성을 분석할 수 있게 한다. 전통적인 패시비티 기반 제어(PBC)는 목표 해밀토니안을 설계하고, 시스템의 구조적 PDE(부분미분방정식)를 만족하도록 제어 입력을 유도한다. 그러나 이 과정은 (1) 전역적인 목표 해밀토니안을 사전에 정의해야 하는 어려움, (2) PDE 해를 구하기 위한 복잡한 수치·기호 연산, (3) 성능(예: 전이 시간, 에너지 소비) 고려가 부족하다는 한계가 있다.

논문은 이러한 문제를 해결하기 위해 EB‑PBC를 강화학습(특히 액터‑크리틱)과 결합한다. 핵심 아이디어는 EB‑PBC의 제어 구조를 파라미터화하여, 파라미터가 PDE 매칭 조건을 자동으로 만족하도록 설계하는 것이다. 구체적으로, 저장 에너지 함수 (H_d(x;\theta))와 감쇠 매트릭스 (R_d(x;\theta))를 신경망 혹은 선형 결합 형태로 표현하고, 이들 파라미터 (\theta)를 액터‑크리틱 알고리즘이 직접 학습한다. 이렇게 하면 (a) 전역 목표 해밀토니안을 명시적으로 지정할 필요가 없으며, (b) 제어법칙이 PDE를 위반하지 않도록 구조적 제약을 파라미터에 내재시킬 수 있다.

성능 목표는 보상 함수 (J)에 에너지 형태와 전통적인 제어 지표(예: 상태 오차, 제어 입력 크기)를 포함함으로써 구현한다. 또한, 입력 포화와 같은 비선형 제약을 보상 함수에 페널티 항으로 넣어 학습 과정에서 자연스럽게 회피하도록 설계한다. 액터‑크리틱 구조는 크리틱이 현재 정책의 가치 함수를 근사하고, 액터가 정책 파라미터 (\theta)를 업데이트한다. 여기서 크리틱은 PH 시스템의 자연스러운 라그랑주·해밀토니안 구조를 이용해 TD‑오차를 계산함으로써 학습 효율을 크게 높인다.

실험에서는 1차 자유도 pendulum 시스템을 대상으로 스윙‑업 문제를 다룬다. 시뮬레이션 결과는 기존 EB‑PBC가 설계한 해밀토니안 기반 제어와 비교해, 학습된 정책이 더 짧은 전이 시간과 낮은 제어 에너지 소비를 달성함을 보여준다. 실제 하드웨어 실험에서도 동일한 파라미터가 적용 가능했으며, 입력 포화가 존재함에도 불구하고 안정적인 스윙‑업이 이루어졌다. 이는 파라미터화된 EB‑PBC가 물리적 제약을 내재적으로 고려하면서도 근접 최적성을 유지한다는 강력한 증거이다.

이 접근법의 장점은 크게 세 가지로 정리할 수 있다. 첫째, 구조적 보존—PH 시스템 고유의 패시비티와 에너지 흐름을 유지하면서도 파라미터 학습이 가능하다. 둘째, 성능 통합—목표 해밀토니안을 미리 지정하지 않아도 보상 함수에 원하는 성능 지표를 직접 넣을 수 있다. 셋째, 학습 효율—액터‑크리틱이 PH 구조를 활용해 TD‑오차를 계산하므로, 일반적인 강화학습보다 빠른 수렴을 보인다. 향후 연구에서는 다자유도 복합 시스템, 로봇 매니퓰레이터, 전력망 등 고차원 PH 시스템에 대한 확장과, 안전성 보장을 위한 형식적 검증 기법과의 연계가 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기