사전학습 정책을 고성능 로봇 정책으로 전환하는 DICERL
초록
DICERL은 사전 학습된 diffusion·flow 기반 행동 복제 정책을 고정하고, 잔차 네트워크를 통해 작은 교정만 수행하면서 샘플 효율적인 오프‑폴리시 RL을 적용한다. 행동 정규화와 가치‑가이드 선택을 결합해 분포를 성공 행동 쪽으로 수축시켜, 긴 시간 horizon와 희소 보상 환경에서도 안정적으로 성능을 향상시킨다.
상세 분석
본 논문은 로봇 조작에서 “행동 사전(behavior prior)”을 어떻게 RL의 사후 미세조정 단계에 활용할 것인가에 대한 새로운 관점을 제시한다. 핵심 아이디어는 사전 학습된 확률적 생성 모델(특히 diffusion 혹은 flow 기반 정책)의 출력에 대해 잔차(residual) 정책을 학습함으로써, 원본 정책의 구조적 다양성을 유지하면서도 필요한 부분만 국소적으로 수정한다는 점이다. 이를 위해 저자는 다음과 같은 설계 선택을 한다.
-
고정된 사전 정책: π_pre(s,z) 를 파라미터 고정 상태로 유지하고, latent noise z∼N(0,I) 를 샘플링해 행동 후보를 생성한다. 이렇게 하면 사전 정책이 제공하는 행동 분포가 탐색의 기본 틀을 제공하고, RL 단계에서 불필요한 역전파를 피할 수 있다.
-
잔차 네트워크 s_θ(s,z): 행동 청크(시간 단계 h) 단위로 잔차를 추가한다. a_{t:t+h‑1}=π_pre(s_t,z)+s_θ(s_t,z). 이 설계는 두 가지 장점을 가진다. (i) 사전 정책의 복잡한 확률 구조를 그대로 활용하면서, (ii) 파라미터 수가 적은 경량 네트워크만 학습하므로 샘플 효율성과 안정성이 크게 향상된다.
-
TD3+BC 스타일 손실: 잔차 네트워크는 Q‑value를 최대화하는 목표와 ‖s_θ‖²² 정규화(BC 손실)를 동시에 최적화한다. 정규화는 행동이 사전 정책의 지원(support) 안에 머물도록 강제하고, Q‑value는 실제 보상 신호를 반영한다.
-
선택적 정규화(BC‑loss filter): 모든 상태에 동일하게 정규화를 적용하면 실제로 가치가 향상된 행동까지도 원래 정책으로 끌어당겨 버릴 위험이 있다. 따라서 critic이 현재 행동이 가치가 높다고 판단하면 정규화 가중치를 감소시켜, 성공적인 편차가 유지되도록 한다.
-
다중 샘플 기대값 학습: 한 상태에서 K개의 z를 샘플링해 K개의 행동 청크를 만든 뒤, critic 업데이트와 actor 업데이트 모두 이 K개의 평균값을 사용한다. 이는 (a) 행동 분포 전체를 학습하게 해 과적합을 방지하고, (b) 샘플 분산을 감소시켜 학습 효율을 높인다.
-
베스트‑오브‑N 행동 선택: 실제 로봇 실행 시 K개의 후보 중 Q‑value가 가장 높은 행동을 선택한다. 이는 “가치‑가이드 탐색”이라고 부를 수 있으며, 낮은 가치의 샘플이 실제 환경에 적용되는 위험을 크게 줄인다.
-
액션 청크와 RLPD 스케줄: 긴 horizon와 희소 보상 문제를 완화하기 위해 h‑step 청크를 사용하고, 초기에는 오프라인 데모 비율을 높게 유지한 뒤 점진적으로 온라인 데이터 비중을 늘리는 선형 감소 스케줄을 적용한다. 이는 초기 안정성을 보장하면서도 점차 실제 경험을 반영하게 만든다.
실험 결과는 시뮬레이션과 실제 로봇 모두에서 복잡한 장기 조작 과제를 성공적으로 마스터함을 보여준다. 특히 고차원 픽셀 입력을 직접 처리하면서도 샘플 효율성이 기존 온‑폴리시 방법보다 현저히 우수하고, 학습 과정에서 급격한 성능 진동이 거의 없다는 점이 강조된다.
전체적으로 DICERL은 (1) 사전 학습된 생성 모델의 풍부한 행동 다양성, (2) 경량 잔차 교정으로 인한 파라미터 효율성, (3) 가치‑가이드 탐색과 선택적 정규화가 결합된 안정적인 RL 루프라는 세 축을 통해 “분포 수축(distribution contraction)”이라는 새로운 관점을 실현한다. 이는 로봇 학습에서 사전 학습과 RL을 연결하는 기존 방법들—직접 파인튜닝, 증류, 스티어링—의 장점을 통합하면서도 각각의 단점을 보완한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기