확률적 부분관측 폐쇄루프 시연으로부터 제약조건 학습하기
초록
본 논문은 노이즈가 섞인 부분관측 시스템에서, 단일 출력‑피드백 정책으로 생성된 최적 시연 데이터를 이용해 미지의 파라메트릭 제약조건을 복원하는 방법을 제시한다. 강인 최적 제어의 KKT 조건을 활용해 제약조건을 추정하고, 시스템‑레벨 합성(SLS)으로 피드백 구조를 모델링한다. 이론적으로 제약조건 파라미터와 피드백 법칙을 정확히 복원함을 증명하고, 전송 오류가 있을 때 복원 오차가 오류 크기에 선형으로 비례함을 보인다. 시뮬레이션(선형, 유니사이클, 쿼드로터) 실험을 통해 제안 방법의 실효성을 검증한다.
상세 분석
이 연구는 로봇 및 자율 시스템에서 안전을 보장하기 위해 반드시 알아야 하는 ‘제약조건’을, 직접적인 제약식이 주어지지 않은 상황에서도 학습할 수 있다는 점에서 큰 의미를 가진다. 기존의 제약조건 학습 방법은 대부분 결정론적, 완전관측, 혹은 오픈‑루프 데이터를 전제로 했으며, 실제 로봇이 겪는 센서 노이즈와 동적 불확실성을 반영하지 못했다. 저자는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 시연이 ‘강인 최적 제어 문제’를 풀어 얻어진 최적 궤적과 피드백 정책이라는 가정 하에, 해당 최적화 문제의 KKT 조건을 역으로 이용해 제약조건을 추정한다. KKT는 최적해가 만족해야 하는 필요조건이므로, 시연이 로컬 최적임을 보장하면 제약조건의 후보 집합을 정확히 정의할 수 있다. 둘째, 출력‑피드백 구조를 시스템‑레벨 합성(SLS) 프레임워크로 표현한다. SLS는 피드백 게인 K를 직접 최적화 변수 대신 시스템 응답 Φ(= {Φ_xw, Φ_xe, Φ_uw, Φ_ue}) 로 매핑함으로써, 노이즈와 출력오차가 시스템 전반에 미치는 영향을 선형적으로 기술한다. 이를 통해 ‘최악의 노이즈 실현’에 대한 제약 위반을 명시적으로 계산하고, 강인 제약식 ˜g_k, ˜g_⟂k 를 정의한다.
이론적 기여는 크게 세 부분으로 나뉜다. (i) 제약조건 파라미터 θ와 피드백 K를 복원하는 알고리즘을 제시하고, 제시된 선형 최소제곱(LLS) 절차가 전송 오류가 없을 때 정확히 η*=(z*,v*,Φ*)를 복원함을 정리 1·정리 1 로 증명한다. 여기서 Γ 행렬의 가역성(레머 1)과 Y 행렬의 전 행렬 랭크(가정 1)가 핵심 전제이다. (ii) 전송 오류가 존재할 경우, 복원된 피드백 K̂와 제약 파라미터 θ̂의 오차가 입력 오류 크기 ‖δ‖에 대해 선형 상한을 갖는 민감도 분석을 제공한다. 이는 실제 통신 환경에서 학습 안정성을 보장한다는 점에서 실용적이다. (iii) 복원된 제약조건 집합 S(θ̂)이 ‘안전한’ 궤적을 포함하고, 그 보완집합 A(θ̂)이 ‘위험한’ 궤적을 포함한다는 보수적(Conservative) 특성을 증명한다. 즉, 학습된 제약조건이 실제 시스템에 적용될 때, 최악의 노이즈 상황에서도 안전을 위배하지 않는다.
실험에서는 선형 시스템, 유니사이클 모델, 그리고 6자유도 쿼드로터를 대상으로 다양한 출력‑피드백(예: LQR, CCM 기반) 정책을 사용해 시연 데이터를 생성하였다. 시연 수가 증가할수록 θ̂의 추정 오차가 급격히 감소하고, 복원된 피드백 K̂이 원래 정책과 거의 일치함을 확인했다. 특히, 노이즈와 전송 오류가 섞인 경우에도 제약조건 복원 정확도가 95% 이상 유지되는 등, 제안 방법의 강인성을 실증하였다.
전체적으로 이 논문은 ‘제약조건 학습’이라는 문제를 ‘강인 최적 제어 + 시스템‑레벨 합성’이라는 두 강력한 이론적 도구와 결합함으로써, 부분관측·노이즈 환경에서도 안전 제약을 자동으로 추출할 수 있는 새로운 패러다임을 제시한다. 이는 로봇 협업, 자율 주행, 인간‑로봇 상호작용 등 안전이 핵심인 분야에 직접적인 적용 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기