모드 의존 레이어 안정화 위한 PPO 정규화 기법
초록
본 논문은 배치 정규화(BatchNorm)와 드롭아웃과 같이 학습·평가 모드가 다른 레이어가 PPO 학습 시 정책 불일치와 분포 이동을 일으켜 보상 붕괴를 초래한다는 문제를 규명한다. 이를 해결하기 위해 두 단계(표준 업데이트 단계와 정규화 단계)로 구성된 “Mode‑Dependent Rectification (MDR)” 절차를 제안한다. MDR은 기존 네트워크 구조를 바꾸지 않고, 정규화 단계에서 모든 레이어를 평가 모드로 전환해 신뢰 구역(clip) 위반을 교정한다. 실험 결과 Procgen 게임군과 실제 패치‑로컬라이제이션 작업에서 MDR이 학습 안정성을 크게 향상시키고 성능을 개선함을 보여준다.
상세 분석
이 논문은 온‑policy 강화학습, 특히 Proximal Policy Optimization(PPO)에서 흔히 사용되는 배치 정규화와 드롭아웃 같은 모드‑의존 레이어가 학습 단계와 데이터 수집 단계 사이에 서로 다른 통계값을 사용함으로써 정책 분포의 불일치를 야기한다는 점을 정량적으로 분석한다. 저자들은 각 학습 스텝 k에서 배치 통계(µ_B,σ_B)와 러닝 평균(µ_r,σ_r) 사이의 차이 Δπ_k 를 Jensen‑Shannon divergence 로 측정하고, 이 값이 학습이 진행될수록 점진적으로 증가하다가 임계점을 넘으면 급격한 보상 붕괴가 발생한다는 현상을 관찰한다. 이러한 현상은 PPO의 클리핑 손실이 가정하는 고정된 신뢰 구역 ε 가 실제 업데이트에서는 δr 로 인해 동적으로 확대·축소되면서, 결국 ε′ = ε + Δε 로 변형되어 신뢰 구역 보장이 깨지는 것으로 해석된다. 저자들은 개별 레이어의 동작을 직접 제어하기보다, 전체 파라미터 업데이트 후에 “정규화 단계”를 삽입해 모든 모드‑의존 레이어를 평가 모드(evaluation mode)로 고정하고 추가적인 최적화를 수행한다. 이 단계는 Δε 를 실질적으로 0에 가깝게 되돌려, 정책 업데이트가 원래의 클리핑 경계 내에 머물도록 보정한다. 하이퍼파라미터 α1, α2 로 표준 업데이트와 정규화 단계의 반복 횟수를 조절할 수 있으며, 실험에서는 α1:α2 = 4:1 정도가 안정적인 결과를 제공한다. 실험 결과는 Procgen 벤치마크 전반에 걸쳐 평균 보상이 12%~18% 향상되고, 특히 배치 정규화와 드롭아웃을 동시에 사용했을 때도 학습이 붕괴하지 않음을 보여준다. 또한 실제 이미지 기반 패치‑로컬라이제이션 작업에서도 동일한 개선 효과가 확인되어, MDR이 시각적 강화학습 전반에 적용 가능한 일반적인 해결책임을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기