분산 쿠프만 학습을 통한 부분 궤적 기반 다중 에이전트 동적 모델링 및 제어
초록
본 논문은 다중 에이전트 시스템에서 각 에이전트가 사전에 할당받은 부분 궤적만을 이용해 딥 뉴럴 네트워크 기반 쿠프만 연산자를 학습하고, 추정된 동적 모델을 이웃과 교환함으로써 전체 시스템의 일관된 전역 모델을 합의(consensus)하는 분산 학습 프레임워크인 DDKL‑PT를 제안한다. 시뮬레이션을 통해 학습된 모델이 테스트 데이터에서 낮은 예측 오차를 보이며, 이를 이용한 모델 예측 제어(MPC)가 목표 추적 및 정지 유지 작업을 성공적으로 수행함을 입증한다.
상세 분석
DDKL‑PT는 기존 중앙집중식 쿠프만 학습이 대규모 데이터와 프라이버시 문제에 직면하는 한계를 극복하기 위해 설계되었다. 핵심 아이디어는 (1) 각 에이전트가 자신의 부분 궤적 ξ_i 를 이용해 로컬 손실 L_i 를 최소화하는 딥 쿠프만 모델(g(·,θ_i), A_i, B_i, C_i)을 학습하고, (2) 인접 에이전트와 추정된 매개변수 집합 K_i={A_i,B_i,C_i,θ_i}를 교환함으로써 전역 합의를 달성한다는 점이다.
첫 번째 단계에서는 고정된 파라미터 θ_i에 대해 선형 매트릭스 A_i, B_i, C_i를 업데이트한다. 저자들은 기존 분산 최적화 기법이 동일한 스텝 사이즈를 요구하는 문제를 피하기 위해, 가중치 w_ij와 상수 c를 이용한 새로운 업데이트 규칙(식 12‑13)을 도입하였다. 이 규칙은 각 에이전트가 로컬 데이터 행렬 G_i, \bar{G}_i, X_i, U_i 를 활용해 보조 변수 E_i, \hat{E}_i와 함께 연립 방정식을 풀어 A_i, B_i, C_i 를 지수적으로 수렴시킨다.
두 번째 단계에서는 고정된 A_i, B_i, C_i 를 바탕으로 파라미터 θ_i 를 최적화한다. 여기서는 분산 서브그라디언트 방법을 적용해, 이웃 평균 θ_j와 로컬 그래디언트 ∇_θ_i L_i 를 결합한 업데이트(식 14)를 수행한다. 학습률 α_i(s)는 점감형으로 설정되어 수렴성을 보장한다.
알고리즘 전체는 두 개의 루프(S 단계와 \bar{S} 단계)로 구성되며, 첫 루프에서 매트릭스 합의를, 두 번째 루프에서 파라미터 합의를 달성한다. 실험에서는 5대의 에이전트가 서로 연결된 그래프 구조를 사용했으며, 각 에이전트는 서로 겹치지 않는 시간 구간의 부분 궤적을 관찰했다. 딥 뉴럴 네트워크 g(·,θ)는 2개의 은닉층(256노드)과 ReLU 활성화를 갖는 8차원 리프팅 함수를 구현한다.
시뮬레이션 결과는 세 가지 측면에서 의미 있다. 첫째, A_i, B_i, C_i 및 θ_i 의 Frobenius norm 차이가 시간에 따라 급격히 감소해 전역 합의가 이루어짐을 보여준다(그림 3). 둘째, 테스트 구간(4000~5000)에서 DDKL‑PT가 평균 예측 오차 V=0.0284±0.0041을 기록했으며, 이는 중앙집중식 DKO(0.0179±0.0016)와 MLP(0.0205±0.0028)보다 약간 높은 편이지만, 프라이버시와 계산 부하 측면에서 큰 장점을 제공한다. 셋째, 학습된 전역 모델을 기반으로 설계된 MPC는 목표 위치와 자세를 정확히 추적하고, 정지 유지 시 안정적인 제어 입력을 생성함을 확인했다.
이 논문은 (i) 부분 궤적만으로도 충분히 정확한 리프팅 함수를 학습할 수 있음을, (ii) 매개변수 교환만으로 대규모 데이터셋을 분산 처리하면서도 전역 모델 일관성을 유지할 수 있음을, (iii) 학습된 모델이 실제 제어 설계에 바로 적용 가능함을 입증한다. 향후 연구에서는 비동기 통신, 동적 네트워크 토폴로지, 그리고 실제 로봇 플랫폼에서의 실시간 구현을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기