베이지안 모델 선택을 활용한 가치 함수 근사 특징 선택
초록
본 논문은 강화학습에서 가치 함수 근사를 위한 특징(기저함수) 선택 문제를, 가우시안 프로세스 기반 정책 평가 프레임워크인 GPTD와 베이지안 모델 선택을 결합해 해결한다. 샘플 전이만으로 하이퍼파라미터의 주변가능도(marginal likelihood)를 최적화함으로써 자동으로 적절한 커널과 특징을 찾아내며, 불필요한 상태 변수는 제거해 계산량을 크게 줄이고 예측 정확도를 향상시킨다.
상세 분석
이 논문은 강화학습(RL)에서 가치 함수 근사(Value Function Approximation, VFA)를 수행할 때, 어떤 특징(또는 기저함수)을 선택해야 하는가라는 근본적인 질문에 베이지안 관점에서 접근한다. 기존의 VFA 방법은 전문가가 직접 설계한 선형 결합 형태의 특징이나, 무작위로 생성된 비선형 특징을 사용한다. 그러나 이러한 방식은 차원 저주와 과적합 위험을 동시에 안고 있다. 저자는 Gaussian Process Temporal Difference (GPTD)라는 가우시안 프로세스(GP) 기반 정책 평가 기법을 기반으로, 특징 선택을 “모델 선택” 문제로 전환한다.
GPTD는 가치 함수 V(s) 를 GP로 가정하고, TD 오차를 관측 노이즈로 모델링한다. 이때 커널 함수 k(·,·)는 특징 변환 φ(s)와 가중치 w의 선형 결합 형태 k(s,s′)=φ(s)ᵀΣ_w φ(s′) 로 표현될 수 있다. 핵심 아이디어는 커널의 하이퍼파라미터(예: 길이 스케일, 변동성, 노이즈 분산)와 동시에 특징 변환 자체를 파라미터화하고, 주어진 전이 데이터 D={(s_t,a_t,r_t,s_{t+1})}에 대해 주변가능도 p(D|θ) 를 최대화하는 것이다.
주변가능도는 GP의 증거(evidence)와 동일하게, 모델 복잡도와 데이터 적합도를 동시에 고려한다. 따라서 하이퍼파라미터가 과도하게 복잡하면 증거가 감소하고, 반대로 과소 복잡하면 데이터 적합도가 낮아 역시 증거가 감소한다. 최적화 과정에서 자동으로 불필요한 차원에 대한 길이 스케일이 무한대로 커지게 되며, 이는 해당 차원이 커널에 거의 기여하지 않음을 의미한다. 결과적으로 “불필요한 상태 변수 제거”와 “관련 서브스페이스 식별”이 자연스럽게 이루어진다.
기술적으로는 로그 주변가능도 L(θ)=−½ yᵀK⁻¹y−½ log|K|−(n/2)log2π 를 사용하고, K는 GPTD의 공분산 행렬이다. 저자는 L-BFGS와 같은 2차 최적화 기법을 적용해 θ를 효율적으로 탐색한다. 또한, 커널을 단순 RBF에서 시작해 ARD(Automatic Relevance Determination) 형태로 확장하거나, 합성 커널(예: 선형+RBF)으로 구성함으로써 복합적인 상태 구조를 포착한다.
실험에서는 마운틴 카(Mountain Car), 카트폴(Cart‑Pole), 그리고 고차원 랜덤 MDP 등에서 기존의 선형 TD(λ), LSTD, 그리고 비베이지안 커널 기반 GPTD와 비교한다. 결과는 두드러진 두 가지 측면에서 우수성을 보인다. 첫째, 자동 선택된 특징 집합은 원래 10차원 이상이던 상태를 23차원으로 축소하면서도 평균 제곱 오차(RMSE)를 2040% 감소시킨다. 둘째, 공분산 행렬의 차원 감소로 인해 연산 복잡도가 O(n³)에서 실질적으로 O(m³) (m≪n) 로 감소해 메모리와 시간 모두 크게 절감된다.
한계점으로는 주변가능도 최적화가 비선형 비볼록 문제이므로 지역 최적에 빠질 위험이 존재한다는 점, 그리고 대규모 데이터셋에서는 K⁻¹ 계산이 여전히 병목이 될 수 있다는 점을 언급한다. 이를 보완하기 위해 저자는 스파스 GP 근사나 미니배치 최적화를 향후 연구 과제로 제시한다. 전반적으로 베이지안 모델 선택을 통한 특징 선택 프레임워크는 RL에서 가치 함수 근사의 자동화와 효율성을 동시에 달성하는 강력한 도구임을 입증한다.