연속적 불확실성 학습을 통한 강인 제어 설계

연속적 불확실성 학습을 통한 강인 제어 설계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 비선형 동역학과 다양한 운전 조건이 복합적으로 존재하는 기계 시스템에서, 여러 불확실성을 동시에 다루는 강화학습 기반 강인 제어 방법을 제안한다. 복합 불확실성을 단계별 학습 과제로 분해하고, 모델 기반 제어기를 베이스라인으로 활용한 잔차 학습 방식을 도입해 샘플 효율성을 높인다. 자동차 파워트레인 진동 제어 사례를 통해 시뮬레이션‑실제 전이와 강인성 검증을 수행하였다.

상세 분석

이 논문은 기존 DRL‑Domain Randomization 접근법이 불확실성의 다중 결합 시 학습 효율이 급격히 저하되고 정책이 최적이 아닌 현상을 지적한다. 이를 해결하기 위해 ‘연속적 불확실성 학습(Continual Uncertainty Learning, CUL)’이라는 커리큘럼 기반 프레임워크를 설계하였다. 핵심 아이디어는 복합 불확실성을 하나씩 순차적으로 확장하는 일련의 학습 과제로 변환함으로써, 각 단계에서 해당 불확실성에 특화된 전략을 습득하도록 하는 것이다. 구체적으로, 원래의 시스템을 ‘플랜트 집합’으로 확장하고, 각 플랜트는 특정 불확실성 조합을 포함한다. 학습 초기에 가장 단순한 플랜트(예: 파라미터 변동만 포함)부터 시작해, 점차 구조적 비선형성, 외란, 센서 노이즈 등 추가적인 불확실성을 포함하도록 플랜트를 확대한다.

정책 업데이트는 모든 플랜트 집합에 대해 공유되는 파라미터를 유지하면서, 새로운 불확실성에 대한 잔차(Residual)만을 학습하도록 설계되었다. 이를 위해 모델 기반 제어기(MBC)를 사전 설계하여 모든 플랜트에 대해 최소한의 성능을 보장한다. DRL 에이전트는 MBC의 출력과 실제 시스템 출력의 차이를 목표로 하는 잔차 학습을 수행한다. 이렇게 하면 기존 MBC가 제공하는 안정적인 베이스라인 위에 불확실성별 최적화가 이루어져, 샘플 효율성이 크게 향상된다.

또한, 연속 학습 과정에서 ‘catastrophic forgetting’을 방지하기 위해 경험 재플레이 버퍼를 플랜트별로 구분하고, 정규화된 KL‑다이버전스 손실을 추가한다. 이는 이전 단계에서 학습된 정책이 새로운 불확실성에 의해 급격히 변형되는 것을 억제한다.

실험에서는 자동차 파워트레인 진동 제어를 사례로 채택하였다. 파워트레인은 비선형 토크 변환기, 변속기 유동성, 도로 불규칙성 등 다중 불확실성을 동시에 포함한다. CUL‑기반 제어기는 기존 DRL‑Domain Randomization 대비 30% 이상의 학습 속도 향상을 보였으며, 시뮬레이션에서 설계된 정책을 실제 차량에 적용했을 때 진동 감소율이 25% 이상 향상되었다. 특히, 구조적 비선형성(예: 기어 백래시)과 급격한 부하 변화에 대해 기존 방법이 불안정해지는 반면, 제안 방법은 안정적인 제어 성능을 유지했다.

이러한 결과는 복합 불확실성을 단계적으로 학습하고, 모델 기반 베이스라인을 활용한 잔차 학습이 강인 제어 설계에 실질적인 이점을 제공함을 입증한다. 향후 연구에서는 플랜트 집합의 자동 생성, 메타‑학습과의 결합, 그리고 다른 산업 분야(예: 로봇 매니퓰레이션, 항공기 제어)로의 확장 가능성을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기