피드백 선형화된 일반합 차동 게임을 위한 반복 이차 방법

본 논문은 일반합 차동 게임(general‑sum differential games)에서 비선형 로봇 시스템을 실시간으로 해결하기 위한 새로운 반복 이차(Iterative Quadratic) 방법을 제시한다. 기존의 ILQ(Iterative Linear‑Quadratic) 접근법은 비선형 동역학을 매 반복마다 1차 선형화하고 비용을 2차 근사해 LQR 서브문제를 풀어 전략을 갱신한다. 그러나 이러한 절차는 초기 제어 정책, 하이퍼파라미터, 그리고 시스템의 비선형성 정도에 따라 수렴이 불안정하거나, 경우에 따라 전혀 수렴하지 않아 안전하지 않은 궤적을 생성할 위험이 있다. 저자들은 이러한 문제를 해결하기 위해 ‘피드백 선형화 가능(feedback linearizable)’이라는 구조적 특성을 활용한다. 피드백 선형화는 비선형 시스템이 적절한 비선형 제어법칙 u = u(x, z) 를 통해 입력‑출력 관계를 완전히 선형화할 수 있음을 의미한다. 구체적으로, 시스템을 ẋ = f(x) + ∑_{i=1}^N g_i(x) u_i 형태로 표현하고, 출력 y = h(x) 와 그 고차 미분을 통해 y^{(r)} = M(x) u + m(x) 와 같은 관계를 얻는다. 여기서 M(x) 가 비특이적이면 u = M⁻¹(x)(z − m(x)) 로 정의된 보조 입력 z에 대해 출력의 r차 미분이 바로 z가 된다. 이렇게 변환된 선형 시스템의 상태 ξ는 y와 그 미분들로 구성되며, 원래 상태 x와는 전단사 매핑 λ(ξ) 로 연결된다. 논문은 다음과 같은 흐름으로 진행된다. 1. **시스템 모델링 및 피드백 선형화** - 일반적인 로봇 모델(예: 평면 유니사이클, 바이시클, 쿼드콥터 등)을 대상으로 피드백 선형화 과정을 상세히 전개한다. - decoupling matrix M(x)와 drift term m(x)를 구하고, u와 보조 입력 z 사이의 변환식을 도출한다. 2. **비용 함수 변환** - 각 플레이어 i의 실행 비용 ℓ_i(t, x, u₁,…,u_N) 를 ξ와 z에 대한 함수 ℓ_i(t; ξ; z₁,…,z_N) 로 재표현한다. - 체인 룰을 이용해 1차·2차 편미분을 계산하고, 변환된 비용을 δξ와 δz에 대한 2차 형태(선형·이차 항)로 근사한다. 3. **반복 LQ 게임 알고리즘** - 초기 전략 γ_i⁰ (ξ → z_i) 를 설정하고, 매 반복마다 선형화된 동역학 ξ̇ = Aξ + Bz 를 전진 시뮬레이션해 현재 운영점(ξ̂, ẑ_i)을 얻는다. - 비용을 2차 근사해 L_i, Q_i, R_{ij}, r_{ij} 를 구하고, 일반합 LQ 게임의 해를 연계된 Riccati 미분 방정식으로 구한다. - 얻어진 최적 보조 입력 ˜γ_i 를 기존 전략과 혼합(step‑toward)하여 새로운 전략 γ_i 를 만든다. - 수렴 기준에 도달하면 종료하고, 최종 보조 입력을 원래 제어 입력 u_i = M⁻¹(λ(ξ))(γ_i − m(λ(ξ))) 로 변환한다. 4. **이론적 등가성 및 수렴성 논의** - 피드백 선형화 전후의 게임 해가 동일함을 정리(정리 1)로 증명하고, 변환 좌표계에서의 LQ 근사가 원래 비선형 게임에 대한 로컬 내시 균형을 제공함을 보인다. - 변환 과정에서 발생하는 고차 항이 실제 시뮬레이션에서는 미미함을 실험적으로 확인한다. 5. **실험 및 결과** - 세 가지 교통 시나리오(교차로, 고속 추월, 라운드어바웃 병합)를 차동 게임으로 모델링하고, 각 시나리오에 2~3명의 차량(플레이어)을 배치한다. - 기존 ILQ

피드백 선형화된 일반합 차동 게임을 위한 반복 이차 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기