합동제곱 프로그래밍을 활용한 근사 동적 계획법
초록
본 논문은 무한 상태·입력 공간을 갖는 확률적 제어 문제에 대해, 가치함수를 다항식 기반으로 근사하고 이를 합동제곱(SOS) 프로그래밍을 통해 반영하는 새로운 근사 동적 계획법을 제시한다. Bellman 방정식을 부등식 형태로 완화하여 무한 제약을 SDP 형태로 변환하고, 오프라인에서 최적 계수를 구한다. 온라인에서는 얻어진 근사 가치함수를 이용해 다항식 최적화를 수행해 제어 정책을 도출한다. 10차원 헬리콥터 모델을 이용한 실험으로 방법의 실효성을 검증하였다.
상세 분석
이 연구는 기존의 근사 동적 계획법(ADP)에서 가치함수를 선형 결합 형태의 기저함수로 표현하고, 그 계수를 결정하기 위한 최적화 문제를 무한 제약을 갖는 선형 프로그램(LP)으로 기술한다는 점에서 출발한다. 무한 제약을 직접 다루는 것은 계산적으로 불가능하므로, 저자들은 Bellman 방정식을 “≤” 형태의 부등식으로 완화함으로써 모든 상태·입력 쌍에 대해 가치함수가 실제 가치보다 상한임을 보장한다. 이 부등식 집합을 다항식 형태로 표현하면, 각 다항식이 비음수임을 확인하는 문제가 된다. 여기서 합동제곱(SOS) 이론을 도입하면, 비음수 다항식을 SOS 형태로 표현할 수 있고, 이는 반대로 반정정(semidefinite) 제약으로 변환된다. 즉, 다항식이 SOS임을 보장하는 SDP를 풀면 무한 제약을 유한 차원의 반정정 조건으로 대체할 수 있다.
특히 저자들은 기존에 2차 다항식(즉, convex quadratic)으로 제한되던 방법을 일반적인 고차 다항식까지 확장한다. 고차 다항식은 복잡한 비선형 동역학을 더 정확히 포착할 수 있지만, SOS 조건이 급격히 강화되어 SDP의 규모가 급증한다. 이를 완화하기 위해 기저함수 선택, 차수 제한, 그리고 희소성 구조를 활용한 변수 축소 기법을 적용한다. 또한, 가치함수 근사가 convex가 되는 경우(예: SOS 다항식이 convex SOS 형태를 만족) 온라인 정책 계산이 다항식 최적화 문제로 전환되며, 이 역시 SDP 혹은 이차계획(QP) 형태로 풀 수 있어 실시간 적용이 가능하다.
실험에서는 10차원 헬리콥터 모델을 사용해, 제어 입력을 연속적인 3축 명령으로 설정하고, 상태는 위치·속도·각도·각속도 등으로 구성한다. 시스템은 강한 비선형성과 외란을 포함하고 있어 전통적인 LQR이나 MPC와 비교했을 때, SOS 기반 ADP는 더 넓은 작동 영역에서 안정성을 유지한다. 오프라인 SDP 해결에 소요된 시간은 수십 분 수준이었으며, 온라인 정책 계산은 1~5 ms 내에 완료돼 실시간 비행 제어에 충분히 적용 가능함을 보여준다.
이 논문의 주요 기여는 (1) Bellman 부등식을 SOS로 변환해 무한 제약을 SDP로 완화한 이론적 프레임워크, (2) 고차 다항식 기반 가치함수 근사를 통해 비선형 시스템에 대한 근사 정확도를 향상시킨 점, (3) 실험을 통해 실제 로봇 플랫폼에 적용 가능한 실시간 성능을 입증한 점이다. 한편, SDP 규모가 차수와 상태 차원에 따라 급격히 증가하는 점은 계산 자원에 제한이 있는 경우 적용이 어려울 수 있다는 한계로 남는다. 향후 연구에서는 구조적 희소성 활용, 차수 적응적 선택, 그리고 분산형 SOS 최적화 기법을 통해 확장성을 높이는 방안이 제시될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기