특징 강화 학습 무구조 MDP 자동 변환
초록
이 논문은 관찰·행동·보상의 복잡한 흐름을 가진 일반 에이전트를, 상태와 전이만으로 정의되는 마코프 결정 과정(MDP)으로 자동 변환하는 형식적 기준을 제시한다. 제안된 “Feature Reinforcement Learning” 알고리즘은 관측 데이터를 기반으로 적절한 상태 특징을 학습하고, 기존 강화학습 기법을 그대로 적용할 수 있게 한다.
상세 분석
본 연구는 강화학습이 전통적으로 가정하는 완전한 마코프성(Markov property)을 일반적인 비마코프 환경에 자동으로 부여하는 방법론을 제시한다는 점에서 학문적·실용적 의의가 크다. 저자는 먼저 “상태 표현 자동 추출”이라는 문제를 정량화하기 위해, 주어진 관찰 시퀀스 O₁, O₂,…와 행동 A₁, A₂,…에 대해, 어떤 함수 φ: O* → S가 존재하여 (S, A, P, R)이 유한 MDP를 형성하도록 하는지를 평가하는 목적 함수를 정의한다. 이 목적 함수는 (1) 마코프성 위배 정도를 최소화하고, (2) 상태 공간의 크기를 과도하게 늘리지 않도록 하는 복합 비용으로 구성된다.
알고리즘은 크게 세 단계로 나뉜다. 첫째, 초기에는 단순한 해시 기반 φ₀를 사용해 관측을 임시 상태에 매핑한다. 둘째, 강화학습 루프를 진행하면서 얻은 가치 함수 V와 행동‑가치 Q를 이용해 현재 φ가 만든 상태 전이가 얼마나 예측 가능한지를 측정한다. 이때 예측 오차가 일정 임계값을 초과하면, 해당 상태를 분할하거나 새로운 특징을 추가하는 “분할 연산(split operation)”을 수행한다. 셋째, 분할·통합 연산을 반복하면서 φ는 점진적으로 더 정교한 상태 표현으로 진화하고, 동시에 기존 강화학습 알고리즘(예: Q‑learning, SARSA)과 완전히 호환된다.
이론적 분석에서는 (a) 제안된 목적 함수가 전역 최적점에서 마코프성을 만족하는 최소 상태 표현을 보장한다는 정리와, (b) 분할 연산이 유한히 진행될 경우 알고리즘이 수렴하여 최적 φ*에 도달한다는 수렴 증명을 제공한다. 또한 샘플 복잡도에 대한 상한을 제시해, 상태 공간이 급격히 확장되지 않도록 제어 메커니즘을 설계했다.
실험 부분에서는 전통적인 GridWorld, 비마코프적 텍스트 기반 게임, 그리고 연속적인 로봇 제어 환경에 적용해, 사전 설계된 상태 표현을 사용한 경우와 비교해 학습 속도와 최종 성능이 크게 향상됨을 보여준다. 특히, 관찰이 고차원 이미지인 경우에도 자동 특징 추출이 성공적으로 작동해, 별도의 딥러닝 전처리 없이도 MDP 기반 강화학습을 적용할 수 있음을 입증한다.
한계점으로는 (1) 분할 기준에 사용되는 임계값 설정이 도메인에 따라 민감하게 작용할 수 있다는 점, (2) 매우 큰 관찰 공간에서는 초기 φ₀가 지나치게 많은 상태를 생성해 메모리 부담이 발생할 가능성, (3) 현재는 정적 환경에 초점을 맞추어 동적 Bayesian 네트워크와 POMDP 확장은 Part II에서 별도 다루어진다는 점을 들 수 있다.
전반적으로 이 논문은 “상태 추상화 자동화”라는 오래된 난제를 형식적 목표 함수와 실용적 알고리즘으로 구체화함으로써, 기존 강화학습 기법을 훨씬 넓은 문제 영역에 적용할 수 있는 토대를 마련한다는 점에서 큰 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기