합성 데이터가 모델 기반 정책 최적화에 미치는 영향과 해결 방안
초록
본 논문은 Dyna‑스타일 모델 기반 강화학습인 MBPO가 DeepMind Control Suite에서 성능이 급락하는 원인을 규명한다. 동적 모델과 보상 모델의 스케일 불일치가 비평가(Q‑value) 언더에스티메이션을 초래하고, 잔차 예측 방식이 모델 분산을 부풀려 합성 전이의 신뢰성을 저하시킨다. 두 가지 간단한 수정—목표값을 상태와 보상별로 독립 정규화하고, 잔차 대신 다음 상태를 직접 예측—을 적용한 FTFL(Fixing That Free Lunch) 방법은 DMC 전반에서 MBPO의 성능을 크게 회복시켜 SAC을 능가하도록 만든다.
상세 분석
이 연구는 MBPO가 OpenAI Gym에서는 샘플 효율성을 보였지만, 동일한 물리 엔진을 공유하는 DeepMind Control Suite(DMC)에서는 거의 무작위 정책 수준에 머무르는 현상을 집중적으로 탐구한다. 저자들은 두 가지 결합된 실패 메커니즘을 밝혀냈다. 첫 번째는 동적 모델과 보상 모델 사이의 스케일 차이이다. DMC 환경에서는 보상 값이 0~1 사이에 머무르는 반면, 상태 변수는 수십에서 수백에 달한다. MBPO는 상태 잔차와 보상을 하나의 목표 벡터로 동시에 회귀시키는데, 이때 큰 스케일의 상태 잔차가 손실 함수에서 보상 신호를 압도한다. 결과적으로 보상 모델이 체계적으로 0에 수렴하고, 합성 전이에서 생성된 보상이 거의 없으므로 비평가가 -10⁸ 수준으로 언더에스티메이션된다. 이는 정책 업데이트 시 탐험‑활용 균형을 무너뜨리고, 실제 환경 데이터가 충분히 섞이지 못하게 만든다. 두 번째 문제는 잔차 예측 방식이다. 기존 MBPO는 다음 상태를 현재 상태에 대한 잔차로 모델링해 학습 안정성을 높이려 했지만, DMC의 복잡한 동역학에서는 잔차의 분산이 크게 증가한다. 높은 분산은 샘플링된 합성 전이의 불확실성을 증폭시켜, 비평가와 액터가 불안정한 신호에 노출된다. 저자들은 이러한 두 문제를 동시에 해결해야만 성능 회복이 가능함을 실험적으로 입증한다. 구체적인 해결책은(1) 상태와 보상 각각에 대해 런닝 유닛 정규화를 적용해 목표 스케일을 동일하게 맞추고, (2) 잔차 대신 직접 다음 상태를 예측하도록 모델 구조를 변경하는 것이다. 두 조치를 동시에 적용한 FTFL은 DMC의 7개 과제 중 5개에서 SAC을 능가하는 성능을 달성했으며, Gym에서는 기존 MBPO와 동등한 결과를 유지한다. 또한, 모델 용량을 확장한 Tuned FTFL은 추가적인 성능 향상을 보여, 제안된 수정이 확장 가능함을 시사한다. 이 연구는 벤치마크 선택이 알고리즘 설계에 내재된 가정을 형성하고, 제한된 평가 환경이 일반화 실패를 감추는 위험성을 강조한다. 따라서 향후 MBRL 연구는 환경 특성(보상 스케일, 동역학 복잡도)과 모델 설계 간의 상호작용을 체계적으로 분석하고, 실패 모드에 대한 통합적인 해결책을 모색해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기