연속시간 다중에이전트 강화학습을 위한 가치 기울기 반복과 물리‑인포메드 신경망
초록
본 논문은 연속시간 강화학습(CTRL)의 다중에이전트 적용을 위해 물리‑인포메드 신경망(PINN)으로 HJB 방정식의 가치 함수를 근사하고, 가치 기울기 반복(VGI) 모듈을 도입해 가치와 그 기울기의 정확성을 동시에 향상시킨 CT‑MARL 프레임워크를 제안한다. 연속시간 버전의 MPE와 MuJoCo 벤치마크에서 기존 연속시간 RL 기법들을 능가함을 실험적으로 입증한다.
상세 분석
이 논문은 연속시간 제어 문제를 HJB(해밀턴‑자코비‑벨만) 방정식의 점성해(solution)으로 정의하고, 이를 다중에이전트 협동 설정에 적용하는 데서 시작한다. 기존 연속시간 RL 연구는 대부분 단일 에이전트에 국한돼 있었으며, 다중에이전트 상황에서는 (i) 고차원 상태공간에서 HJB를 직접 풀면 차원의 저주(Curse of Dimensionality)가 발생하고, (ii) 중앙집중식 가치 함수가 정확히 근사되지 않으면 정책 학습이 불안정해지는 문제가 있었다.
논문은 두 가지 핵심 기법으로 이 문제들을 해결한다. 첫 번째는 물리‑인포메드 신경망(PINN)을 활용해 HJB 방정식의 잔차(residual)와 경계조건을 손실함수에 포함시켜 가치 함수 Vθ(x)를 직접 학습한다. PINN은 Monte‑Carlo 방식으로 샘플을 추출해 PDE를 최소화하므로, 전통적인 격자 기반 수치해법보다 차원의 저주에 강인하다. 저자들은 기존 PINN 기반 CTRL이 가치 기울기 ∇xV에 대한 정확성을 보장하지 못한다는 점을 지적하고, 이는 연속시간 정책이 시스템 동역학 f(x,u)와 곱해지는 항에서 오차가 증폭돼 정책이 비효율적으로 업데이트되는 원인이라고 설명한다.
두 번째 핵심은 Value Gradient Iteration(VGI) 모듈이다. VGI는 작은 시간 간격 Δt에 대해 가치 함수의 미분식
∇xV(x_t) ≈ ∇xV(x_t) + Δt·
댓글 및 학술 토론
Loading comments...
의견 남기기