딥 강화학습 기반 유한 상태 컨트롤러로 숨겨진 모델 POMDP 해결
초록
Lexpop은 딥 강화학습으로 RNN 정책을 학습한 뒤, 효율적인 추출 기법으로 해당 정책을 유한 상태 컨트롤러(FSC)로 변환한다. 변환된 FSC는 모델 기반 검증이 가능해 성능 보장을 제공한다. 또한 숨겨진 모델 POMDP(HM‑POMDP) 집합에 대해 최악의 경우를 고려한 로버스트 FSC를 반복 학습·추출 과정을 통해 얻는다. 실험 결과, 대규모 상태 공간을 가진 문제에서 기존 POMDP·HM‑POMDP 솔버보다 뛰어난 확장성을 보였다.
상세 분석
본 논문은 부분관측 마코프 결정 과정(POMDP)과 그 확장인 숨겨진 모델 POMDP(HM‑POMDP) 문제에 대해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 모델‑프리 딥 강화학습(DRL)을 활용해 순환 신경망(RNN) 기반 정책을 학습하는 것이다. RNN은 관측 시퀀스를 메모리 형태로 압축해 부분관측 환경에서도 효과적인 행동 선택이 가능하며, PPO와 같은 최신 정책 최적화 알고리즘을 사용해 대규모 상태·관측 공간에서도 학습 효율을 확보한다. 두 번째는 학습된 RNN 정책을 유한 상태 컨트롤러(FSC)로 변환하는 추출 단계이다. 저자는 두 가지 추출 방법을 제안한다. 첫 번째는 확률적 자동화 학습 기법인 Alergia를 이용해 RNN의 행동 분포를 상태 전이 확률로 근사하는 방식이며, 두 번째는 ‘SIG’라 명명된 자체 해석 가능한 서브시뮬레이션 네트워크를 학습해 FSC의 크기를 직접 제어하면서 추출하는 방법이다. 이 과정은 정책을 블랙박스로 취급해 RNN 구조와 무관하게 적용 가능하도록 설계되었다.
FSC는 메모리 노드와 관측에 기반한 확률적 행동·업데이트 함수를 명시적으로 갖기 때문에, 추출 후에는 Storm과 같은 모델 검증 툴을 이용해 정확한 기대 보상을 계산할 수 있다. 이는 기존 DRL 정책이 제공하지 못하는 형식적 보증을 가능하게 하며, 안전‑중요 분야에 적용하기 위한 필수 전제조건이다.
HM‑POMDP에 대한 확장에서는 ‘최악의 경우’ 모델을 식별하는 절차가 핵심이다. 저자는 기존 연구에서 사용된 deductive verification 기법을 차용해 현재 FSC가 가장 낮은 성능을 보이는 POMDP를 찾아낸다. 그런 모델을 버퍼에 추가하고, 버퍼에 포함된 전체 모델 집합을 대상으로 DRL을 재학습한다. 이 과정을 FSC가 수렴할 때까지 반복함으로써, 최악의 경우에도 일정 수준 이상의 성능을 보장하는 로버스트 FSC를 얻는다. 이때 사용되는 ‘worstPOMDP’ 서브루틴은 모델 검증 단계와 긴밀히 연결돼, 학습‑검증 루프가 자동으로 진행된다.
실험에서는 전통적인 belief‑space 기반 POMDP 솔버와 최신 모델‑기반 FSC 탐색기, 그리고 기존 HM‑POMDP 로버스트 방법들과 비교한다. 특히 상태 수가 수십만에 달하는 네비게이션·의료·네트워크 프로토콜 시나리오에서 Lexpop은 메모리·시간 복잡도 측면에서 현저히 우수했으며, 추출된 FSC는 검증 가능한 성능 한계를 제공했다. 또한 로버스트 버전은 다양한 모델 변동성에도 불구하고 평균 15~30% 정도의 성능 향상을 기록했다.
이 논문은 (1) DRL을 활용한 대규모 POMDP 학습, (2) 학습된 정책을 형식적 검증이 가능한 FSC로 변환, (3) HM‑POMDP에 대한 최악‑사례 기반 로버스트 학습 루프라는 세 축을 통해 기존 방법들의 확장성·보증성 한계를 동시에 극복한다는 점에서 의미가 크다. 향후 연구는 추출된 FSC의 구조적 최적화, 연속형/부분 할인 보상 확장, 그리고 멀티‑에이전트 환경으로의 일반화 등을 포함할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기