시뮬‑리얼 격차 해소를 위한 로봇 제어 프레임워크: MPC 모방 학습의 새로운 접근
초록
본 논문은 로봇 및 차량 제어에 널리 사용되는 모델 예측 제어(MPC)를 딥러닝 기반 모방 학습으로 근사하면서 발생하는 시뮬‑리얼 격차를 최소화한다. 강인 튜브 MPC(R‑TMPC) 개념을 차용해 DNN을 명목 제어기로 제한하고, 별도의 보조 제어기와 입력 정제 거버너를 추가함으로써 실제 시스템이 명목 궤적을 따라가게 하고 파라미터 변동에도 제약을 만족하도록 설계한다. 제안 프레임워크는 기존 도메인 랜덤화 방식보다 데이터 효율성이 높으며, 카트‑폴 및 차량 충돌 회피 실험을 통해 유효성을 입증한다.
상세 분석
이 연구는 MPC의 고비용 최적화 문제를 딥 뉴럴 네트워크(DNN)로 대체하는 모방 학습 접근법이 실세계 적용 시 시뮬‑리얼 격차(sim‑to‑real gap) 때문에 성능 저하를 겪는다는 근본적인 문제를 짚는다. 기존 해결책인 도메인 랜덤화(DR)는 파라미터 변동, 외란, 센서 노이즈 등을 무작위로 주입해 학습 데이터를 확대하지만, (1) 어떤 변수를 얼마나 랜덤화할지 결정하기 어렵고, (2) 데이터 양이 급증해 학습 비용이 크게 늘어나며, (3) 과도한 보수성으로 실제 제어 성능이 저하되는 단점이 있다.
논문은 이러한 한계를 극복하기 위해 강인 튜브 MPC(R‑TMPC)의 구조를 재해석한다. R‑TMPC는 실제 시스템 상태 x와 명목 모델 상태 (\bar{x})를 분리하고, 명목 제어기(u_nom)와 보조 제어기(κ)를 결합해 실제 상태가 명목 궤적 주변의 ‘오류 튜브(error tube)’ 안에 머물도록 설계한다. 이때 오류 튜브의 크기는 시스템 외란·모델 불확실성에 대한 상한으로 정의되며, 제약 강화(robust constraint tightening)를 통해 재귀적 실현 가능성(recursive feasibility)을 보장한다.
제안 프레임워크는 DNN을 명목 제어기 역할에만 제한한다. 즉, DNN은 명목 상태 (\bar{x})만을 입력으로 받아 명목 제어 입력 (u_{\text{nom}} = \pi_\theta(\bar{x}))을 출력한다. 보조 제어기 κ는 실제 상태와 명목 상태 사이의 오차 e 를 측정해 튜브 내부로 복귀시키는 피드백을 제공한다. 이 구조는 DNN의 목표 도메인을 ‘명목 모델 기반 도메인(S_nom)’으로 강제함으로써, 실제 시스템이 학습되지 않은 상태에 노출되는 위험을 원천 차단한다. 따라서 DR에서 요구되는 대규모 랜덤화 데이터가 불필요해져 데이터 수집 효율성이 크게 향상된다.
또한, 논문은 입력 정제 거버너(input refinement governor)를 도입한다. 파라미터 변동이 발생하면 명목 DNN만으로는 제약을 만족하기 어려운 경우가 많다. 거버너는 DNN 출력과 보조 제어기의 피드백을 조정해, 전체 입력 (u = \pi_\theta(\bar{x}) + κ(x,\bar{x})) 가 실시간으로 제약을 만족하도록 보정한다. 이는 기존의 파라미터 적응 MPC와 달리 별도 학습 없이도 파라미터 변화에 강인하게 대응한다는 장점이 있다.
이론적 측면에서 논문은 ‘명목 모델 기반 도메인(S_nom)’ 정의와 명목 DNN이 해당 도메인에서만 동작한다는 명제(Proposition 1)를 제시하고, 증명을 통해 목표 도메인이 자동으로 제한됨을 보인다. 학습 목표는 명목 상태 궤적에 대한 MPC 입력과 DNN 출력 간의 평균 제곱 오차를 최소화하는 형태이며, 이는 기존의 전체 상태 기반 학습과 비교해 데이터 요구량이 현저히 낮다.
실험에서는 (1) 카트‑폴 시스템에서 전통적인 DR 기반 DNN과 비교해 제어 오버슈트와 안정성 지표가 크게 개선되었으며, (2) 차량 충돌 회피 시뮬레이션에서 도로 마찰·풍동 등 파라미터 변동 상황에서도 제약(가속도·조향 각도 제한)을 정확히 만족하면서 목표 경로를 추적했다. 특히, 입력 정제 거버너가 활성화된 경우, 파라미터 변화가 30 % 이상 증가해도 제어 실패가 발생하지 않았다.
전체적으로 이 연구는 ‘DNN을 명목 제어기로 한정하고, 보조 제어기와 입력 정제 거버너를 결합함으로써 시뮬‑리얼 격차를 구조적으로 해소한다’는 새로운 패러다임을 제시한다. 이는 학습 효율성, 제어 보수성 감소, 파라미터 적응성 강화라는 세 축에서 기존 DR 기반 방법을 능가한다는 점에서 학계·산업계 모두 큰 관심을 가질 만한 기여이다. 다만, 보조 제어기의 설계(예: LQR, H∞ 등)와 튜브 크기 설정이 시스템마다 달라야 하며, 복잡한 비선형 시스템에 대한 일반화 가능성은 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기