잔차 강화학습에서 가치 학습을 효율적으로 만드는 요인

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
잔차 강화학습은 사전 학습된 베이스 정책을 고정하고 작은 보정만 학습함으로써 안정적인 온라인 개선을 가능하게 한다. 그러나 가치 함수 학습이 비효율적이면 전체 성능이 제한된다. 본 논문은 잔차 RL에서 발생하는 두 가지 핵심 병목(초기 냉각 현상과 구조적 스케일 불일치)을 규명하고, 베이스 정책 전이 데이터를 활용한 “값 앵커”와 비판자 정규화를 결합한 DAWN(Data‑Anchored Warmup and Normalization) 방법을 제안한다. 실험 결과 DAWN은 ManiSkill·Adroit 등 다양한 로봇 조작 벤치마크에서 기존 방법 대비 5배 가량 빠르게 수렴하며, 정책 구조·관측 형태에 관계없이 일관된 효율 향상을 보인다.

상세 분석

**
잔차 강화학습은 베이스 정책 π_base을 고정하고, 작은 스케일 λ·π_res를 학습함으로써 파라미터 불안정성을 최소화한다. 이때 가치 함수 Q(s,a) 는 합성된 행동 a = π_base(s)+λ·π_res(s)를 입력으로 받아야 하는데, 두 가지 고유한 문제점이 존재한다. 첫 번째는 “cold start pathology”이다. 초기 단계에서 비평가(critic)는 무작위 초기화된 상태이며, 베이스 정책 주변의 가치 지형에 대한 사전 지식이 전혀 없다. 기존 오프‑폴리시 방법은 무작위 정책으로부터 데이터를 수집해 점진적으로 가치 함수를 학습하지만, 잔차 RL에서는 학습 초기에 이미 베이스 정책이 높은 성능을 보이므로, 비평가가 이 영역에 빠르게 정착하지 못하면 잘못된 Q‑값이 잔차 정책을 오도해 급격한 성능 붕괴가 발생한다. 저자들은 베이스 정책으로부터 수집한 전이 데이터를 “값 앵커”로 활용하면, 비평가가 초기부터 올바른 가치 지형을 학습하게 된다는 것을 실험적으로 입증하였다. Warm‑up 데이터 양이 증가할수록 Q‑grounding error가 크게 감소하고, 특히 어려운 과제(PegInsertionSide)에서 학습 성공률이 급격히 향상된다.

두 번째 병목은 “structural scale mismatch”이다. λ가 일반적으로 0.1 이하로 설정되므로, 잔차 행동이 베이스 행동에 비해 매우 작다. 이 경우 Q‑네트워크는 행동 차이에 민감하게 반응하기 어려워, 잔차에 의한 가치 차이를 구분하지 못한다. 저자들은 비평가 출력에 LayerNorm·BatchNorm 형태의 정규화를 적용하면, 작은 잔차 신호가 확대되어 Q‑값의 미세 변화를 포착하게 된다는 점을 확인했다. 정규화는 분포적 목표(예: Distributional RL)를 도입할 필요 없이 평균 이동(mean shift)만으로도 충분히 가치 차이를 학습하도록 만든다.

또한, 명시적 Warm‑up(critic pre‑training) 전략을 검증했지만, Soft‑Q(자동 α 튜닝)에서는 엔트로피 항 |α log π|가 보상 r을 압도해 Q‑값이 극단적인 음수로 붕괴하고, Hard‑Q에서도 초기 학습이 베이스 정책과의 불일치로 인해 효율이 떨어졌다. 이는 잔차 RL 특유의 초기 상태에서 엔트로피 항이 과도하게 지배적인 것이 원인이며, 따라서 암묵적 Warm‑up(베이스 전이 데이터)만이 가장 효과적인 해결책임을 보여준다.

DAWN은 이 두 가지 인사이트를 결합한다. (1) 학습 시작 전 베이스 정책으로부터 일정량(예: 20K) 전이 데이터를 Replay Buffer에 삽입해 비평가를 “값 앵커”로 초기화하고, (2) 비평가 네트워크에 정규화 레이어를 삽입해 스케일 불일치를 보정한다. 구현은 SAC 기반의 최소 residual RL 파이프라인에 간단히 추가할 수 있으며, 추가 하이퍼파라미터는 거의 없다. 실험에서는 Diffusion Policy를 베이스로 사용한 ManiSkill 3개·Adroit 3개 과제에서 최종 성공률은 기존 방법과 동등하거나 약간 상회하면서, 학습 속도는 평균 5배 가량 가속화되었다. 또한, 정책 아키텍처(MLP·Transformer)와 관측 형태(이미지·포인트 클라우드) 전반에 걸쳐 일관된 효율 향상이 관찰되었다.

결론적으로, 잔차 강화학습에서 가치 학습의 효율성은 “값 앵커”와 “정규화”라는 두 가지 간단한 설계 원칙에 의해 크게 좌우된다. 이 원칙을 적용한 DAWN은 복잡한 보조 메커니즘 없이도 샘플 효율성을 크게 개선하며, 실제 로봇 시스템에 적용 가능한 실용적인 솔루션으로 평가된다.

잔차 강화학습에서 가치 학습을 효율적으로 만드는 요인

초록

상세 분석

댓글 및 학술 토론

의견 남기기