예측 상태 표현으로 학습‑계획 루프 완전 연결

본 논문은 부분관측 환경에서 미래 보상을 극대화하기 위한 계획 문제를 다루며, 특히 모델을 직접 학습하고 그 모델 위에서 계획을 수행하는 ‘학습‑계획 루프’를 완전하게 닫는 방법을 제시한다. 기존에는 POMDP가 일반적인 프레임워크로 사용되었지만, 상태가 숨겨져 있어 모델 학습이 매우 어려웠고, 차원의 저주와 역사의 저주 때문에 정확한 계획이 실용적이지 못했다. 이러한 한계를 극복하기 위해 저자들은 예측 상태 표현(PSR)과 그 변형인 변환된 PSR(TPSR)을 선택한다. PSR은 시스템 상태를 미래 테스트(행동‑관측 시퀀스)의 성공 확률 벡터로 정의함으로써, 관측 가능한 양만으로 완전한 시스템 기술이 가능하다. TPSR은 PSR에 선형 변환을 적용해 핵심 테스트 집합을 압축하고, 파라미터 학습을 행렬 연산으로 단순화한다. 논문의 핵심 이론적 기여는 다음과 같다. 먼저, 행동‑관측 쌍으로 구성된 테스트 집합 T와 히스토리 집합 H를 정의하고, 각각의 확률을 담은 행렬 P_T,H, P_T,ao,H, 그리고 히스토리 확률 벡터 P_H를 구성한다. 이 행렬들은 시스템의 선형 차원 n(코어 테스트 수) 이하의 랭크를 갖는다는 점에서 중요한데, 이는 행렬의 SVD를 통해 저차원 서브스페이스를 추출할 수 있음을 의미한다. 저자들은 좌특이벡터 행렬 U를 선택해 UᵀR이 가역하도록 보장하고, 이를 이용해 TPSR의 파라미터를 다음과 같이 명시적으로 계산한다: 초기 상태 b₁ = UᵀP_T,H 1_k, 정규화 벡터 b_∞ = P_T,H (UᵀP_T,H)†, 전이 행렬 B_ao = UᵀP_T,ao,H (UᵀP_T,H)†. 여기서 †는 무어-펜로즈 유사역행렬을 의미한다. 이러한 파라미터는 모두 관측 데이터의 경험적 확률로부터 직접 추정되며, 샘플 수가 무한히 커질 경우 일관적(통계적으로 정확)이라는 이론적 보장을 갖는다. 학습 알고리즘은 순수히 행렬 연산(행렬 곱, SVD, 유사역행렬)으로 구성돼, 복잡도가 비교적 낮으며 대규모 고차원 데이터에도 적용 가능하다. 학습된 TPSR 모델을 이용한 계획 단계에서는 점 기반 근사 가치 반복(PBVI)을 적용한다. PBVI는 베이즈 신념 공간을 대표하는 몇 개의 점을 샘플링하고, 각 점에서 벨만 연산을 수행해 가치 함수를 갱신한다. TPSR의 선형 전이 구조와 정규화 벡터 b_∞를 활용하면, 가치 업데이트가 행렬 연산 형태로 효율적으로 구현된다. 저자들은 이 방법을 시뮬레이션된 고차원 비전 기반 모바일 로봇 과제에 적용하였다. 로봇은 카메라 이미지(수백 차원)와 연속적인 움직임 액션을 갖고, 목표 지점까지 이동하는 과제를 수행한다. 약 1,000개의 행동‑관측 트레이스를 수집해 TPSR을 학습한 결과, 모델은 관측 분포를 높은 정확도로 재현했으며, PBVI로 도출된 정책은 원 환경에서 실행했을 때 평균 보상이 거의 최적 정책(정확히 알려진 모델 기반)과 동일했다. 실험은 또한 학습된 모델이 소수의 파라미터(수십 개)만으로도 복잡한 시각 정보를 압축하고, 계획 단계에서 계산 비용이 크게 감소함을 보여준다. 논문의 의의는 세 가지 측면에서 강조된다. 첫째, EM이나 비선형 최적화에 의존하지 않고, 스펙트럴 방법을 통해 통계적으로 일관된 모델을 학습한다는 점이다. 둘째, 변환된 PSR이라는 새로운 표현을 도입해 고차원 연속 관측을 효율적으로 압축하면서도 예측 정확도를 유지한다는 점이다. 셋째, 기존 POMDP 근사 계획 기법(PBVI 등)을 그대로 적용할 수 있는 모델 구조를 제공함으로써, 학습‑계획 루프를 완전하게 닫았다. 향후 연구에서는 실시간 온라인 학습, 더 복잡한 연속 제어 문제, 그리고 실제 로봇 하드웨어에의 적용 등을 탐색할 여지가 있다.

예측 상태 표현으로 학습‑계획 루프 완전 연결

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기