계층적 확산 정책의 반복적 정제로 언어 기반 조작 향상
초록
HD‑ExpIt은 고수준 확산 플래너와 저수준 컨트롤러로 구성된 계층적 로봇 정책을 환경 피드백을 통해 반복적으로 미세조정하는 프레임워크이다. 확산 플래너의 stochastic 특성을 탐색 메커니즘으로 활용해 성공적인 행동을 자동으로 발견하고, 이를 지도학습으로 다시 정책에 통합한다. 오프라인 데이터만으로 학습된 기존 계층형 정책 대비 성공률을 크게 높이며, CALVIN 장기 과제에서 스크래치 학습 기준 최고 성능을 기록한다.
상세 분석
본 논문은 언어‑조건부 로봇 조작에서 계층적 정책이 직면하는 “고수준‑저수준(High‑Level–Low‑Level) 결합 불일치” 문제를 근본적으로 해결하고자 한다. 기존 연구들은 중간 ‘글루’ 모듈이나 공유 표현 학습을 통해 플래너가 컨트롤러의 역량을 고려하도록 시도했지만, 고정된 오프라인 데이터에 의존하고 추가 모델 학습으로 인한 불안정성·추론 비용 증가라는 한계를 갖는다. HD‑ExpIt은 이러한 제약을 없애기 위해 Expert Iteration(전문가 반복) 아이디어를 연속적인 로봇 조작에 맞게 변형한다. 핵심 아이디어는 확산 기반 플래너 자체가 확률적 샘플링을 통해 다양한 서브골을 생성하므로, 이를 ‘암묵적 탐색 엔진’으로 활용한다는 점이다.
훈련 루프는 세 단계로 구성된다. ① 현재 데이터셋 Dₜ(초기에는 고정 오프라인 데이터)에서 고수준 플래너와 저수준 컨트롤러를 각각 독립적으로 지도학습한다. ② 학습된 정책을 환경에 배치해 on‑policy 롤아웃을 수행한다. 플래너는 여러 번 샘플링해 다양한 서브골 시퀀스를 생성하고, 저수준 컨트롤러가 실제로 해당 서브골을 달성할 수 있는지 환경 피드백(이진 성공/실패)으로 필터링한다. 성공적인 트래젝터리는 Rₜ로 저장된다. ③ Rₜ를 기존 데이터와 병합해 Dₜ₊₁을 만든 뒤, 다음 반복으로 돌아간다.
이 과정에서 플래너는 실제 컨트롤러가 수행 가능한 서브골 분포를 점진적으로 학습하게 되며, 컨트롤러는 플래너가 제공하는 더 현실적인 목표에 맞춰 행동을 정제한다. 따라서 별도의 역량 모델이나 공유 임베딩을 설계할 필요가 없으며, 순수 지도학습만으로도 지속적인 성능 향상이 가능하다.
실험은 Franka‑3Blocks와 CALVIN 벤치마크에서 수행되었다. 특히 CALVIN의 5‑step 연속 작업에서 성공률이 2배 이상 상승했으며, 동일한 초기 오프라인 데이터만 사용했음에도 불구하고 기존 최첨단 방법들을 앞섰다. 분석 결과, 반복 학습 초기에 플래너가 생성한 서브골 중 약 30%만이 컨트롤러에 의해 성공했지만, 5~6번째 반복 이후에는 70% 이상이 성공적으로 필터링되어 데이터셋에 축적된다. 이는 플래너와 컨트롤러 사이의 결합 불일치가 점진적으로 감소함을 의미한다.
또한, HD‑ExpIt은 학습 안정성 측면에서도 장점을 보인다. 기존 강화학습 기반 미세조정은 높은 변동성으로 수렴이 어려웠지만, 본 방법은 성공/실패 이진 라벨만을 이용한 지도학습이므로 gradient variance가 낮아 안정적인 수렴을 보인다. 계산 비용도 MCTS 기반 전문가 탐색에 비해 크게 절감되며, 플래너 재샘플링 횟수를 조절함으로써 실시간 로봇 제어에 충분히 적용 가능하다.
요약하면, HD‑ExpIt은 (1) 확산 플래너의 stochastic성을 탐색 메커니즘으로 활용, (2) 환경 피드백 기반 성공 트래젝터리만을 데이터로 축적, (3) 순수 지도학습으로 고수준·저수준 정책을 교차 정제하는 세 가지 핵심 설계가 결합된 프레임워크이며, 이는 언어‑조건부 장기 조작에서 기존 계층형 접근법의 근본적인 한계를 뛰어넘는 실증적 증거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기