부분관측 계획을 위한 QMDP넷

본 논문은 부분관측 마르코프 결정 과정(POMDP)에서 효율적인 정책 학습을 목표로, 모델 기반 계획과 모델 프리 학습을 결합한 새로운 신경망 구조인 QMDP‑넷을 제안한다. QMDP‑넷은 두 개의 주요 모듈, 즉 베이지안 필터와 QMDP 플래너를 재귀 신경망(RNN) 형태로 연결한다. 베이지안 필터 모듈은 행동 aₜ와 관측 oₜ를 입력받아 현재 믿음(bₜ)을 업데이트한다. 이 과정은 상태 전이 함수 T를 컨볼루션 레이어로 구현하고, 행동 인덱싱을 소프트 인덱싱(soft‑indexing) 기법으로 처리함으로써 미분 가능하게 만든다. 관측 모델 Z는 파라미터 θ에 조건화된 CNN으로 구현되며, 관측 역시 소프트 인덱싱을 통해 현재 관측 oₜ에 대응한다. 플래너 모듈은 QMDP 알고리즘을 네트워크 내부에 내장한다. QMDP는 완전 관측 MDP에 대해 가치 반복(value iteration)을 수행하고, 얻어진 Q값을 현재 믿음에 가중합하여 최적 행동을 선택한다. 가치 반복은 컨볼루션 연산과 맥스 풀링을 통해 근사화되며, 보상 함수 R과 전이 확률 T는 학습 가능한 파라미터로 두어 데이터에 맞게 조정된다. 이렇게 함으로써 QMDP‑넷은 “모델 + 플래너” 구조를 완전 미분 가능한 형태로 만들고, 엔드‑투‑엔드 학습이 가능하도록 한다. 학습은 전문가 시연 데이터를 이용한 모방 학습(imitation learning) 방식으로 진행된다. 각 작업은 파라미터 θ(예: 지도, 목표 위치, 초기 믿음)로 정의된 POMDP 인스턴스로, 네트워크는 θ에 따라 동적으로 모델 파라미터(f_T, f_Z, f_R)를 생성한다. 손실 함수는 예측된 행동 시퀀스와 전문가 행동 시퀀스 사이의 교차 엔트로피이며, RMSProp 옵티마이저를 사용해 최적화한다. 실험에서는 격자 세계 로봇 내비게이션, 복도(Hallway) 문제 등 장기 의존성을 갖는 여러 POMDP 환경을 대상으로 QMDP‑넷을 평가하였다. 비교 대상은 VIN, DQN‑LSTM, 전통적인 QMDP 플래너 등이다. 결과는 QMDP‑넷이 성공률, 평균 보상, 학습 효율 측면에서 모든 비교 모델을 능가함을 보여준다. 특히, 동일한 QMDP 알고리즘을 직접 적용했을 때보다 높은 성능을 기록했는데, 이는 네트워크가 학습 과정에서 QMDP의 근사 오류를 보정하도록 모델 파라미터를 조정했기 때문이다. 논문의 주요 기여는 다음과 같다. 첫째, 부분관측 상황에 특화된 “베이지안 필터 + QMDP 플래너” 통합 아키텍처를 제시함으로써 모델 기반 계획의 구조적 장점을 유지하면서도 데이터 기반 학습의 유연성을 확보했다. 둘째, 선형 연산(행렬 곱, 합)은 컨볼루션 레이어로, 최대 연산은 맥스 풀링 레이어로 구현해 전통적인 알고리즘을 신경망에 자연스럽게 매핑하는 방법론을 제공한다. 셋째, 파라미터화된 작업 집합 Θ에 대해 일반화와 전이 학습 능력을 입증하였다. 넷째, 근사 플래너와 학습된 모델 간의 상호 보완 메커니즘을 통해, “잘못된” 모델이라도 전체 정책 성능을 향상시킬 수 있음을 실증하였다. 향후 연구 방향으로는 연속 상태·동작 공간에 대한 확장, 비선형·고차원 관측 모델의 통합, 실제 로봇 하드웨어에서의 실증 검증, 그리고 다른 근사 POMDP 알고리즘(예: SARSOP, POMCP)과의 결합을 통한 성능 향상이 제시된다. QMDP‑넷은 부분관측 로봇 제어, 자율 주행, 인간‑로봇 상호작용 등 다양한 분야에 적용 가능성이 높으며, 모델‑플래너 통합 신경망 설계의 새로운 패러다임을 제시한다.

부분관측 계획을 위한 QMDP넷

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기