연속시간 강화학습을 이용한 다중 레짐 최적 전환 정책 연구
초록
본 논문은 엔트로피 정규화를 적용한 탐색적 연속시간 강화학습 프레임워크를 제안하여, 다중 레짐 전환 문제를 연속시간 마코프 체인의 생성자 행렬을 통해 스위칭 시점과 목표 레짐을 무작위화한다. 탐색적 HJB 방정식 시스템의 존재·유일성을 입증하고, 정책 반복을 통한 최적 정책 수렴과 온도 파라미터가 0에 접근할 때 고전 최적 전환 문제와의 가치 함수 수렴을 증명한다. 또한 마팅게일 기반 정책 평가를 활용한 강화학습 알고리즘을 설계하고, 신경망을 이용한 수치 실험으로 알고리즘의 효율성을 확인한다.
상세 분석
이 연구는 기존 연속시간 강화학습(RL) 이론을 다중 레짐 전환 문제에 적용하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 스위칭 시점과 전환 대상 레짐을 동시에 무작위화하기 위해 연속시간 유한 상태 마코프 체인(CTMC)의 생성자 행렬을 제어 변수로 설정한다. 엔트로피 정규화 항을 추가함으로써 탐색을 촉진하고, 온도 파라미터(β)로 탐색 강도를 조절한다. 둘째, 이 탐색적 제어 문제를 연속시간 HJB 방정식의 시스템 형태로 변환한다. 기존 최적 전환 문제는 변분 부등식(variational inequality) 형태의 HJB 방정식으로 표현되지만, 탐색적 모델에서는 각 레짐에 대한 가치 함수 V_i(t,x)가 서로 연결된 비선형 PDE 시스템을 이루며, 최소 연산과 최대 연산이 동시에 등장한다.
논문은 먼저 이 PDE 시스템에 대해 유계 고전 해의 존재와 유일성을 증명한다. 증명 과정에서 기존 PDE 이론(예: Schauder 추정, 최대 원리)과 함께, 레짐 수가 유한하므로 트렁케이션 기법을 적용해 비선형 항을 제한한다. 이어서 검증 정리를 통해 얻은 해가 실제 탐색적 가치 함수와 일치함을 보인다.
정책 반복(Policy Iteration, PI) 분석에서는 현재 정책 π_k가 정의하는 생성자 행렬 Q^{π_k}에 대해 가치 함수 V^{π_k}를 풀고, 이를 이용해 정책 개선 연산 π_{k+1}=𝔾(V^{π_k})를 수행한다. 여기서 𝔾는 엔트로피 정규화된 베르누이 최적화 공식에 기반한 명시적 업데이트 규칙이며, 가치 함수의 미분이 필요 없다는 장점이 있다. 저자는 정책 개선이 항상 가치 함수를 상승시킴을 보이고, 전체 반복 과정이 선형 수렴률(γ<1)을 갖는다는 정리를 제시한다. 이는 다중 레짐 시스템에 대한 최초의 명시적 수렴 속도 결과라 할 수 있다.
또한 온도 파라미터 β→0 일 때 탐색적 가치 함수 V^β가 고전 최적 전환 문제의 가치 함수 V^0(=V)로 수렴함을 보여준다. 이를 위해 β-정규화된 HJB 시스템의 점별 연속성 및 비교 원리를 활용하고, β가 작아질수록 엔트로피 항이 사라져 변분 부등식으로 전이함을 엄밀히 증명한다.
알고리즘 구현 부분에서는 마팅게일 정규성(Martingale Orthogonality) 조건을 이용해 정책 평가를 샘플 경로 기반의 스토캐스틱 근사로 전환한다. 구체적으로, CTMC의 점프 시점과 상태를 시뮬레이션하고, 해당 경로에 대해 ∫(∂t V + L_i V + f)dt + Σ(g{ij}) 항을 최소제곱법으로 추정한다. 신경망 파라미터 θ를 사용해 V_i(t,x;θ)와 Q_{ij}(t,x;θ)를 동시에 학습시키며, 정책 개선 단계는 네트워크 출력에 대한 소프트맥스 형태의 업데이트로 구현한다. 수렴 오차는 시간 이산화와 샘플 평균에 대한 중심극한 정리를 이용해 O(1/√N) 수준임을 정리 5.4에서 제시한다.
수치 실험은 (1) 1차원 확률 과정에 3레짐을 갖는 전환 문제와 (2) 2차원 다변량 확률 과정에 4레짐을 적용한 에너지 저장 시나리오를 다룬다. 두 경우 모두 정책 반복이 10~15회 이내에 수렴하고, 신경망 기반 가치 함수가 고전 해와 시각·공간적으로 높은 일치도를 보인다. 탐색적 정책은 초기 무작위 정책에서도 빠르게 최적 전환 구조(스위칭 경계)를 학습한다는 점이 강조된다.
전체적으로 이 논문은 (i) 탐색적 연속시간 제어를 다중 레짐 전환에 적용한 새로운 모델링, (ii) PDE 시스템에 대한 존재·유일성 및 정책 반복 수렴 이론, (iii) 온도 파라미터와 고전 모델 간의 연속성, (iv) 마팅게일 기반 샘플링과 신경망을 결합한 실용적 RL 알고리즘을 포괄적으로 제공한다. 이는 연속시간 RL이 실제 복합 제어·재무·에너지 시스템에 적용될 수 있는 이론적·계산적 토대를 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기