모델 기반 제어와 도메인 랜덤화를 결합한 비선형 파워트레인 진동 억제
초록
본 논문은 파워트레인 시스템의 비선형성 및 파라미터 불확실성을 고려해, 물리 모델 기반 제어(MBC)와 도메인 랜덤화(DR)를 결합한 심층 강화학습(DRL) 프레임워크를 제안한다. LSTM 기반 actor‑critic 네트워크와 잠재 마코프 결정 과정(LMDP) 모델링을 통해 훈련 효율성을 높이고, 보다 컴팩트한 네트워크와 적은 학습 데이터로 높은 일반화 성능을 달성한다. 실험 결과, 제안 방법이 기존 DRL 기반 제어보다 강인하고 보수성이 낮은 제어 정책을 제공함을 확인하였다.
상세 분석
이 연구는 복잡한 파워트레인 시스템에서 발생하는 비선형 동특성 및 파라미터 변동성을 동시에 다루는 새로운 강인 제어 전략을 제시한다. 핵심 아이디어는 ‘도메인 랜덤화 기반 DRL’에 물리 기반 모델(MBC)을 보조적으로 결합함으로써, 순수 DRL이 겪는 학습 난이도와 과도한 보수성 문제를 완화하는 것이다.
먼저, 저자는 제어 문제를 ‘잠재 마코프 결정 과정(LMDP)’으로 공식화한다. LMDP는 여러 개의 베이직 MDP를 집합적으로 다루며, 각 에피소드 시작 시 환경 파라미터를 무작위로 샘플링해 시뮬레이션 환경을 다양화한다. 이렇게 하면 에이전트는 다양한 동역학을 경험하면서 실제 시스템에 대한 일반화 능력을 자연스럽게 습득한다. 그러나 무작위화된 환경은 학습을 복잡하게 만들고, 정책이 과도하게 보수적으로 수렴할 위험이 있다. 이를 보완하기 위해 저자는 ‘모델 기반 제어(MBC)’를 도입한다. MBC는 사전에 식별된 선형 근사 모델을 기반으로 설계된 고전적인 피드백 제어기로, 초기 단계에서 기본적인 제어 신호를 제공한다. 결과적으로 DRL 에이전트는 MBC가 만든 베이스 라인 위에 보정 신호만 학습하면 되므로 탐색 공간이 크게 축소되고, 학습 효율이 크게 향상된다.
네트워크 구조 측면에서는 LSTM 기반 actor와 critic을 사용한다. LSTM의 내부 상태는 과거 시퀀스 정보를 보존하므로, 랜덤화된 환경에서 시간에 따라 변하는 파라미터와 비선형성을 추정하는 데 유리하다. 이는 전통적인 feed‑forward 네트워크가 순간적인 상태만을 이용할 때보다 더 정확한 정책을 도출하도록 돕는다.
알고리즘적으로는 DDPG를 기반으로 하며, 정책 업데이트 시 MBC가 제공하는 제어 입력을 보조 신호로 합산한다(MBCA‑DRT). 이렇게 하면 정책 그라디언트가 더 안정적인 방향으로 흐르고, 보수적인 정책 편향이 감소한다. 또한, 저자는 LMDP 내에서 마코프 성질이 유지된다는 이론적 증명을 제공해, 기존 RL 이론과의 일관성을 확보한다.
실험에서는 비선형 토크 변동과 파라미터 변동을 포함한 파워트레인 모델에 대해 활성 감쇠 제어를 수행한다. 비교 대상으로는 순수 DDPG, 전통적인 LQR, 그리고 기존 DR 기반 RL이 포함된다. 결과는 제안 방법이 동일한 학습 데이터 양에서도 더 낮은 진동 응답과 빠른 수렴 속도를 보이며, 파라미터 변동 범위가 확대된 상황에서도 안정적인 제어 성능을 유지함을 보여준다.
한계점으로는 MBC 설계에 필요한 근사 모델의 정확도가 여전히 요구된다는 점과, 매우 높은 차원의 비선형 시스템에서는 LSTM 네트워크의 학습 비용이 증가할 수 있다는 점을 들 수 있다. 향후 연구에서는 모델 프리(MBC‑free) 접근과 더 복잡한 시계열 구조(예: Transformer) 적용을 검토할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기