장애 제약을 갖는 확률 재귀 최적 제어 문제의 동적 계획 원리와 해밀턴‑자코비‑벨만 방정식

초록

본 논문에서는 비용 함수가 반사된 뒤방 확률 미분 방정식(RBSDE)의 해로 기술되는 장애 제약을 가진 확률 재귀 최적 제어 문제를 연구한다. 이러한 유형의 최적 제어 문제에 대해 동적 계획 원리(DPP)를 수립하고, 가치 함수가 해당 해밀턴‑자코비‑벨만(HJB) 방정식의 장애 문제에 대한 유일한 점성 해(Viscosity solution)임을 증명한다.

상세 요약

이 연구는 확률 제어 이론과 뒤방 확률 미분 방정식(BSDE) 이론을 융합한 최신 흐름에 중요한 기여를 한다. 전통적인 확률 최적 제어에서는 비용 함수를 전방 SDE의 경로에 대한 기대값 형태로 정의하지만, 재귀적 비용 구조를 도입하면 비용 자체가 또 다른 확률 과정, 즉 BSDE의 해로 표현된다. 여기서 저자들은 특히 반사된 BSDE(RBSDE)를 사용한다는 점이 핵심이다. RBSDE는 해가 사전에 정해진 장애 함수 위에 머물도록 강제하는 반사항을 포함하는데, 이는 실제 시스템에서 상태나 비용이 물리적·경제적 제한을 초과하지 못하도록 하는 상황을 모델링한다는 점에서 실용적이다.

논문은 먼저 제어 가능한 전방 SDE와 그에 대응하는 RBSDE를 정확히 정의하고, 제어 전략이 적합(admissible)인 경우에 한해 비용 함수가 잘 정의됨을 보인다. 이후 동적 계획 원리(DPP) 를 증명하는데, 이는 가치 함수 V(t,x) 가 “현재 시점에서 최적 정책을 적용한 뒤, 이후에도 최적 정책을 계속 적용한다면 얻을 수 있는 최소 비용”이라는 직관적 의미를 수학적으로 정당화한다. DPP의 증명은 일반적인 마코프성 가정 없이도 가능한데, 저자는 RBSDE의 비교 정리와 적절한 피스톤(“stopping time”) 기법을 활용해 시간 구간을 분할하고, 점차적으로 최적값을 근사한다.

DPP가 확립되면, 가치 함수가 점성 해(Viscosity solution) 로서 HJB 방정식에 만족한다는 결과를 도출한다. 여기서 HJB 방정식은 전통적인 형태에 장애(Obstacle) 조건이 추가된 장애 문제(obstacle problem) 로 나타난다. 즉, 가치 함수는 두 개의 불평등을 동시에 만족해야 하는데, 하나는 HJB 연산자와의 비교, 다른 하나는 장애 함수와의 비교이다. 저자는 상하극한 테스트 함수(upper/lower test functions)를 이용해 점성 해 정의를 적용하고, 비교 원리를 통해 유일성을 증명한다. 이는 기존 연구에서 흔히 가정되는 강한 정칙성(예: 연속 미분 가능성) 없이도 해의 존재와 유일성을 확보할 수 있음을 의미한다.

이 논문의 주요 기여는 다음과 같다.

장애 제약을 포함한 재귀적 비용 구조 를 다루는 새로운 최적 제어 프레임워크를 제시.
RBSDE와 전방 SDE 사이의 복합적인 상호작용을 정밀히 분석하여 동적 계획 원리 를 일반적인 마코프성 가정 없이 증명.
가치 함수가 장애가 포함된 HJB 방정식 의 점성 해이며, 비교 원리를 통해 유일성을 확보함을 보임.
증명 과정에서 사용된 반사 BSDE의 비교 정리, 피스톤 기법, 점성 해 이론 등은 향후 비마코프 제어, 다중 장애, 그리고 위험 민감 제어 등 복합 문제에 적용 가능한 강력한 도구가 된다.

실제 응용 측면에서는 금융 파생상품(예: 미국형 옵션의 최적 매매 시점)이나 에너지 관리 시스템 등에서 비용이 일정 수준 이하로 유지되어야 하는 상황을 모델링할 때, 본 연구의 결과가 직접적인 이론적 기반을 제공한다. 또한, 수치 해석을 위한 정책 반복법이나 몬테카를로 시뮬레이션과 결합하면, 고차원 시스템에서도 실용적인 최적 정책을 도출할 수 있을 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)