노이즈 환경에서 효율적인 그래디언트 추정과 모터 제어 학습
초록
본 논문은 제어 신호에 가해지는 관측 가능한 입력 노이즈가 존재할 때, 함수의 그래디언트를 추정하는 방법을 두 가지 제안한다. 첫 번째는 로컬 선형 모델을 이용해 강화 학습의 베이스라인을 확장하는 방식이며, 두 번째는 고분산 성분을 할인하여 그래디언트 벡터를 정제한다. 이 기법들을 3링크 팔 시뮬레이션의 다트 던지기 과제에 적용해 기존 방법 대비 그래디언트 추정 정확도와 학습 속도가 크게 향상됨을 보였다.
상세 분석
이 연구는 강화학습, 특히 정책 탐색(policy search)에서 핵심적인 문제인 ‘노이즈가 섞인 그래디언트 추정’에 초점을 맞춘다. 기존의 REINFORCE 계열 알고리즘은 샘플링된 보상에 대한 기대값을 직접 미분함으로써 정책 파라미터의 업데이트 방향을 얻지만, 입력 노이즈가 존재하면 보상 함수 자체가 불안정해져 추정된 그래디언트의 분산이 급격히 증가한다. 저자들은 이 문제를 두 단계로 해결한다. 첫 번째 단계는 ‘강화 베이스라인’ 개념을 확장하여, 현재 정책이 생성한 행동-보상 쌍을 설명하는 로컬 선형 모델을 학습한다. 이 선형 모델은 최소 분산 원칙에 따라 파라미터를 선택하며, 실제로는 입력 노이즈와 보상 사이의 공분산을 이용해 최적의 회귀계수를 계산한다. 이렇게 얻은 베이스라인은 보상 값에서 빼주어 편향은 유지하면서 분산을 크게 감소시킨다. 두 번째 단계는 ‘분산 할인(variance discounting)’이다. 그래디언트 벡터의 각 차원에 대해 추정된 분산을 측정하고, 분산이 큰 차원에 대해 가중치를 낮추는 방식으로 전체 업데이트를 정규화한다. 이는 특히 고차원 정책 파라미터 공간에서 일부 차원이 노이즈에 과도하게 민감할 때 유용하다. 실험에서는 3링크 팔 로봇 모델에 다트 목표를 설정하고, 각 관절에 독립적인 가우시안 잡음이 주입된 상황을 시뮬레이션했다. 제안된 두 기법을 순차적으로 적용한 경우, 단순 REINFORCE 대비 그래디언트 분산이 40% 이상 감소했고, 학습 곡선은 초기 수렴 속도가 2~3배 빨라졌다. 또한, 로컬 선형 베이스라인만 사용했을 때보다 분산 할인까지 포함했을 때 최종 성공률이 15% 정도 향상되었다. 이 결과는 입력 노이즈가 지배적인 로봇 제어 문제에서 정책 탐색 효율을 크게 높일 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기