수축 메트릭 기반 안전 강화 학습을 이용한 유압 액추에이터 힘 제어
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 유압 액추에이터의 비선형·불확실성을 고려해, 실험실에서 직접 강화학습을 수행하면서도 안전을 보장하기 위해 학습된 수축 메트릭을 활용한 QP 필터를 제안한다. 사전 학습된 Soft Actor‑Critic 정책이 피드백 선형화 제어기의 PI 이득을 조정하고, 수축 필터가 최소한의 보정으로 궤적 수축을 강제한다. 실제 시험대에서 하드웨어 학습이 시뮬레이션 기반 정책보다 힘 추적 성능을 향상시키며, 필터가 진동과 불안정을 완화한다는 결과를 보여준다.
상세 분석
이 연구는 세 가지 핵심 기술을 결합한다. 첫째, 실제 유압 시스템에서 수집한 데이터로 다층 퍼셉트론(MLP) 기반의 데이터‑드리븐 모델을 학습한다. 논문은 단일‑스텝 예측이 충분히 정확하지 않음을 지적하고, 다‑스텝 예측 horizon H = 70을 사용해 장기 동역학을 포착함으로써 RMSE를 두 자릿수 이상 감소시킨다. 둘째, 사전 학습된 모델을 이용해 Soft Actor‑Critic(SAC) 정책이 피드백 선형화(FL) 제어기의 PI 이득(Kp, Ki)을 실시간으로 조정하도록 설계한다. 여기서 FL 제어기는 이상적인 모델(식 1‑3)을 기반으로 하며, 실제 시스템에서는 C₁, C₂, d와 같은 불확실성으로 인해 완전한 선형화가 불가능하다. 따라서 RL이 이 파라미터를 보정함으로써 추적 오차를 최소화한다. 셋째, 안전성을 보장하기 위해 수축 메트릭(M(x))을 학습하고, 이를 QP 필터에 적용한다. 수축 조건(식 18)은 δxᵀ
댓글 및 학술 토론
Loading comments...
의견 남기기