연속 정책을 위한 호환 가치 기울기 학습 GProp
초록
GProp은 연속 행동 공간을 갖는 강화학습에서 정책과 가치 함수를 동시에 학습하도록 설계된 알고리즘이다. 핵심은 TD 기반으로 가치 함수의 기울기를 직접 추정하는 “gradient perturbation trick”와, 가치, 기울기, 정책을 각각 담당하는 세 개의 신경망으로 구성된 Deviator‑Actor‑Critic(DAC) 모델이다. 논문은 비선형 정책에 대한 호환 함수 근사 조건을 만족함을 이론적으로 증명하고, 비파라메트릭 회귀 데이터를 활용한 컨텍스트 밴드잇 실험과 복잡한 Octopus Arm 벤치마크에서 기존 방법들을 능가하는 성능을 보였다.
상세 분석
본 논문은 연속 정책 그라디언트(Deterministic Policy Gradient) 프레임워크에서 “호환(compatible) 함수 근사” 조건을 만족하는 새로운 학습 메커니즘을 제시한다. 기존의 TD‑based 방법은 가치 함수 자체는 학습하지만 그 기울기를 직접적으로 추정하지 못한다는 한계가 있었으며, 특히 비선형 신경망 정책을 사용할 경우 정책 파라미터와 가치 함수 파라미터가 얽혀 가중치 업데이트가 역전파로 수행되기 어려웠다. 이를 해결하기 위해 저자는 두 가지 혁신을 도입한다. 첫 번째는 Gaussian 잡음을 이용해 함수 입력을 미세하게 교란시키는 “gradient perturbation trick”(Lemma 3)이다. 이 방법은 작은 분산 σ²를 갖는 잡음 ε∼N(0,σ²I) 하에서 f(μ+ε)의 기대값을 이용해 ∇f(μ)를 무편향 추정한다. 이 추정 과정을 TD‑error와 결합하면, 시간 차 학습 과정에서 가치 함수 Q와 그 기울기 G를 동시에 업데이트할 수 있다. 두 번째는 Deviator‑Actor‑Critic(DAC) 구조이다. Deviator 네트워크는 G(x)≈∇ₐQ(s,a)를 학습하고, Critic 네트워크는 Q(s,a)를, Actor 네트워크는 결정적 정책 μθ(s)를 담당한다. 세 네트워크는 각각 서로의 출력에 의존하면서도 독립적인 파라미터 집합을 유지하므로, 정책 파라미터 θ와 가치 파라미터 w, v가 서로 얽히지 않는다. Theorem 6은 선형 및 ReLU 유닛으로 구성된 네트워크에서 위 구조가 C1(가치 기울기 근사)과 C2(정책‑가치 호환) 두 조건을 모두 만족함을 증명한다. 또한, 기존의 COPDAC‑Q와 비교했을 때, GProp은 가치 함수와 그 기울기를 별도로 학습함으로써 더 정확한 정책 그라디언트를 제공한다. 실험에서는 SARCOS·Barrett 회귀 데이터를 컨텍스트 밴드잇 형태로 변형해 연속 액션의 정확한 기울기 추정이 필요하도록 설계했으며, GProp은 완전 감독 학습 수준의 성능에 근접했다. Octopus Arm 과제에서는 기존 최고 기록을 넘어서는 보상을 달성, 복잡한 연속 제어 문제에서도 안정적인 학습이 가능함을 입증한다. 전체적으로 이 논문은 비선형 정책에 대한 호환 함수 근사의 실현 가능성을 보여주며, 정책‑가치 네트워크를 분리·통합하는 새로운 설계 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기