합의 기반 최적화 로봇 전역 최적화
초록
본 논문은 로봇 궤적 및 정책 설계에 제로‑오더 최적화 기법을 적용하면서, 기존 MPPI·CEM·CMA‑ES와 달리 전역 최적성을 보장하는 합의 기반 최적화(CBO)를 소개한다. 입자 집단이 비용 가중 평균(컨센서스 포인트)으로 끌어당겨지는 확률 미분 방정식을 이용해 탐색 범위를 전역적으로 확대하고, 이론적 수렴성을 증명한다. 세 가지 로봇 시나리오(장기 단순 시스템, 고도 언액추에이티드 동적 균형, 고차원 터미널 비용)에서 CBO가 기존 방법보다 낮은 비용을 달성함을 실험적으로 확인한다.
상세 분석
논문은 먼저 로봇 궤적 최적화에서 널리 사용되는 제로‑오더 기법들을 확률 분포 기반의 추정‑분포 알고리즘(EDAs) 관점으로 재구성한다. MPPI는 현재 평균을 중심으로 고정 공분산을 갖는 다변량 정규분포에서 샘플을 추출하고, 비용에 대한 소프트맥스 가중치를 이용해 평균을 업데이트한다. 이는 비용 평활화(smoothing) 효과를 가지지만, 가중치가 급격히 집중될 경우 전역 최적점 대신 지역 최소점에 머무를 위험이 있다. CMA‑ES와 CEM은 샘플 공분산을 적응시키는 메커니즘을 도입하지만, 여전히 파라미터화된 가우시안 형태에 제한된다. 고차원 제어 공간에서는 샘플 수가 현실적으로 충분하지 않아 ‘차원의 저주’를 겪는다.
이에 대한 대안으로 제시된 CBO는 파라미터화된 분포 대신 입자 집합 자체를 확률 분포의 비파라메트릭 근사치로 사용한다. 각 입자는
(du_i = -\lambda (u_i-\bar u)dr + \sigma |u_i-\bar u| dW_i)
와 같은 확률 미분 방정식에 따라 움직이며, 여기서 (\bar u)는 비용 가중 평균(컨센서스 포인트)이다. 두 핵심 요소는 (1) drift term이 입자들을 비용이 낮은 방향으로 강제적으로 끌어당겨 전역 탐색을 촉진하고, (2) multiplicative noise term이 입자들 사이에 비대칭적인 긴 꼬리를 형성해 중요한 방향으로 탐색 폭을 유지한다는 점이다. 이러한 비선형 확산 과정은 기존 가우시안 기반 방법이 제공하지 못하는 ‘불규칙·비대칭’ 분포를 자연스럽게 생성한다.
이론적으로는 λ와 σ가 적절히 선택될 경우 입자들의 경험적 분포가 전역 최적점에 수렴한다는 수렴 정리를 제시한다(문헌
댓글 및 학술 토론
Loading comments...
의견 남기기