강화학습을 위한 적응형 기저 함수 설계
초록
본 논문은 강화학습에서 함수 근사 시 사용되는 기저를 환경과의 상호작용 과정에서 동적으로 변형시키는 방법을 제안한다. 근사 오차, 벨만 잔차, 투영 벨만 잔차라는 세 가지 손실을 최소화하도록 설계된 actor‑critic 알고리즘을 제시하고, 수렴성을 이론적으로 증명하였다. 시뮬레이션을 통해 적응형 기저가 고정 기저에 비해 학습 효율과 정책 성능을 크게 향상시킴을 확인하였다.
상세 분석
이 연구는 강화학습(RL)에서 함수 근사의 핵심 요소인 기저(basis) 선택이 고정된 경우, 특정 환경에 최적화된 근사 정확도를 달성하기 어렵다는 점에 주목한다. 이를 해결하기 위해 저자는 기저 파라미터를 정책 파라미터와 별도로 학습시키는 적응형 기저(adaptive basis) 프레임워크를 도입한다. 세 가지 오류 기준을 정의했는데, 첫째는 전통적인 근사 제곱오차(approximation square error)로, 가치 함수와 근사값 사이의 L2 거리이다. 둘째는 벨만 잔차(Bellman residual)로, 현재 가치 추정이 벨만 연산자를 적용했을 때 발생하는 차이를 측정한다. 셋째는 투영 벨만 잔차(projected Bellman residual)로, 벨만 연산 후 기저 공간에 다시 투영했을 때의 오차를 의미한다. 각각의 오류는 기저 파라미터와 정책 파라미터에 대한 그래디언트를 유도할 수 있으며, 이를 기반으로 actor‑critic 구조를 설계한다. 구체적으로, critic은 현재 기저와 파라미터를 이용해 가치 함수를 추정하고, 그 추정값을 이용해 TD‑error를 계산한다. 이 TD‑error는 기저 파라미터 업데이트에 사용되며, 동시에 정책 파라미터(actor)도 TD‑error에 비례해 강화한다. 저자는 확률적 근사와 마코프 결정 과정(MDP)의 표준 가정 하에, 두 파라미터 집합이 서로 다른 시간 스케일(step size)로 업데이트될 때 수렴성을 보장하는 수학적 증명을 제공한다. 특히, ODE(ordinary differential equation) 방법을 활용해 두 업데이트가 각각 안정적인 고정점을 향해 수렴함을 보이며, 전체 시스템이 공동 최적점에 도달함을 증명한다. 실험에서는 적응형 기저가 고정 기저에 비해 학습 초기에 큰 오차 감소를 보였으며, 복잡한 비선형 보상 구조를 가진 환경에서도 정책의 수렴 속도가 현저히 빨라졌다. 이러한 결과는 기저를 동적으로 조정함으로써 함수 근사의 표현력이 환경에 맞게 최적화될 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기