다중패턴 강화학습으로 로봇 시각‑언어‑행동 모델을 위한 풍부하고 확장 가능한 데이터 생성

읽는 시간: 7 분
...

📝 Abstract

Scaling vision-language-action (VLA) model pre-training requires large volumes of diverse, high-quality manipulation trajectories. Most current data is obtained via human teleoperation, which is expensive and difficult to scale. Reinforcement learning (RL) methods learn useful skills through autonomous exploration, making them a viable approach for generating data. However, standard RL training collapses to a narrow execution pattern, limiting its utility for large-scale pre-training. We propose Discover, Lea rn and Reinforce (DLR), an information-theoretic pattern discovery framework that generates multiple distinct, high-success behavioral patterns for VLA pretraining. Empirically, DLR generates a markedly more diverse trajectory corpus on LIBERO. Specifically, it learns multiple distinct, high-success strategies for the same task where standard RL discovers only one, and hence it covers substantially broader regions of the state-action space. When adapted to unseen downstream task suites, VLA models pretrained on our diverse RL data surpass counterparts trained on equal-sized standard RL datasets. Moreover, DLR exhibits positive data-scaling behavior that single-pattern RL lacks. These results position multi-pattern RL as a practical, scalable data engine for embodied foundation models.

💡 Analysis

**

1. 연구 배경 및 동기

  • VLA 모델의 데이터 병목: 현재 VLA 사전학습 데이터는 인간 텔레오퍼레이션에 크게 의존한다. 인간은 성공을 최우선 목표로 몇 가지 효율적인 전략만을 사용하므로, 행동 다양성이 자연스럽게 제한된다.
  • 표준 RL의 한계: RL은 성공 보상만을 최적화하기 때문에 “모드 붕괴”(mode collapse) 현상이 발생한다. 결과적으로 하나의 고성공 패턴만을 학습하고, 다양한 행동을 제공하지 못한다.

2. 핵심 아이디어 – DLR 프레임워크

단계목표핵심 기법
Discover인간 시연에서 서로 구별되는 행동 패턴를 탐색정보‑이론적 상호정보(I(Z;S)) 최대화, 변분 하한 사용
Learn패턴‑조건부 정책 π(as,z) 를 학습
Reinforce각 패턴을 고성공 솔루션으로 강화기존 sparse reward와 패턴‑조건부 정책을 결합, 성공 궤적에만 다양성 보상 적용
  • 다중패턴 생성 원리: 다양성 보상은 성공한 궤적에만 적용함으로써 탐색 단계에서의 “다양성‑성공 충돌”을 회피한다. 이는 성공 상태 매니폴드 S* 위에서만 상호정보를 최대화하도록 설계된 점이 혁신적이다.

3. 이론적 기여

  • 목표 함수 재구성:
    \

📄 Content

비전‑언어‑액션(VLA) 모델은 대규모 사전학습 후 다운스트림 태스크 파인튜닝이라는 지배적인 패러다임을 확립해 왔습니다[30,32,52,59,69]. 사전학습의 목표는 로봇에게 다양한 행동을 경험하게 하여 폭넓은 조작 능력을 습득하도록 하는 것입니다. 이어지는 파인튜닝 단계에서는 이러한 기반 위에 특정 작업을 능숙하게 수행하도록 모델을 미세조정합니다[4,8,25,37,72]. 이 패러다임의 효율성은 사전학습 데이터의 규모와 다양성에 크게 좌우됩니다[3,6,56]. 현재 이러한 데이터는 주로 인간의 텔레오퍼레이션으로부터 얻고 있는데, 이는 노동 집약적이고 비용이 많이 들며 행동 다양성 측면에서도 근본적인 한계를 가지고 있습니다. 인간 시연자는 작업 성공이라는 단일 목표에만 집중하기 때문에, 몇 가지 효율적인 전략에만 의존하고 의도적으로 대안적인 해결책을 보여주지는 않습니다[71]. 이러한 제한은 VLA 사전학습에 필요한 풍부하고 다중 패턴 데이터를 생성하는 데 근본적인 난관을 제시합니다.

강화학습(RL)은 환경과의 상호작용을 통해 로봇이 복잡한 행동 패턴을 습득하도록 하는 강력한 대안으로 떠오르고 있습니다[19,22,46]. RL의 핵심 강점은 시행착오 과정을 통한 보상 신호 최적화에 있습니다. 에이전트는 보상을 최대화함으로써 인간 시연만을 모방하는 것보다 더 효율적이고 때로는 새로운 성공 전략을 스스로 발견할 수 있습니다[2,45].

선행 연구들은 RL이 특정 작업에서 VLA 정책을 정제함으로써 인간 시연자보다 부드럽고 효율적인 행동을 구현하거나, 전혀 새로운 성공 전략을 찾아낼 수 있음을 보여주었습니다[24,39,57,67]. 그러나 기존 연구는 주로 RL을 VLA 파인튜닝에 활용하는 데 초점을 맞추었고, VLA 사전학습을 가능하게 하는 RL의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VLA 사전학습을 위해 다양한 궤적을 수집하는 방법을 탐구합니다. 이는 동일 환경 내 단일 작업에서도 VLA가 성공적으로 일반화되기 위해 필수적인 요소입니다[3,49]. 정책 기반 RL의 목표는 최적 정책을 찾는 것이므로, 일반적으로 고정된 실행 패턴에 수렴하게 됩니다[31,60]. 특정 스킬을 마스터하는 데는 매우 효과적이지만, 이렇게 얻어진 궤적은 다운스트림 일반화를 위한 풍부한 지식을 주입하기에 충분한 다양성을 갖추지 못할 수 있습니다. 따라서 VLA 사전학습을 위한 다양하고 풍부한 데이터셋을 명시적으로 생성할 수 있는 RL 프레임워크를 설계하는 것이 중요한 연구 과제로 떠오릅니다.

본 논문에서는 RL 훈련의 목표를 “각 작업에 대해 고성공률을 보이는 행동 레퍼토리를 발견”하도록 재구성합니다. 이 과정은 다양하고 다중 모달(state visitation) 분포를 만들어 냅니다. 아래 그림의 하단 행은 전형적인 오프라인‑투‑온라인 RL 베이스라인을 보여줍니다.

  1. 전체 라벨이 없는 인간 데이터셋에 대해 행동 복제(Behavior Cloning)으로 정책을 초기화한다.
  2. 희소 성공 보상(sparse success reward)으로 온라인에서 정책을 정제한다.

이와 같은 표준 접근법은 모드 붕괴(mode collapse)를 초래해 단일 모달(state visitation) 분포만을 남깁니다.

우리는 “Discover – Learn – Reinforce”(DLR)라는 3단계 프레임워크를 제안합니다. 구체적으로는

  1. 정보 이론적 원리를 이용해 인간 시연으로부터 서로 다른 행동 패턴을 발견한다;
  2. 발견된 패턴에 조건화된 정책을 학습해 해당 패턴을 모방한다;
  3. 패턴‑조건화된 정책을 작업 보상으로 강화해 각 패턴에 대응하는 정제된 솔루션을 얻는다.

이 과정을 거치면 각 행동이 고품질 데이터 생성기로 작동하는 다중 패턴 정책이 만들어지며, 이는 VLA 사전학습을 위한 다양하고 풍부한 샘플링을 가능하게 합니다.

우리는 LIBERO 벤치마크[33]를 이용해 사전학습된 VLA 모델의 분포 외 일반화 능력을 평가했습니다. 구체적으로, RL을 이용해 수집한 데이터를 사용해 LIBERO‑90의 작업들에 대해 VLA를 사전학습하고, 이후 LIBERO‑spatial/object/goal/long 작업들에 대해 파인튜닝했습니다. 실험 결과는 다음과 같습니다.

  1. DLR이 생성한 다중 패턴 RL 데이터로 사전학습한 VLA 모델이, 동일 규모의 전통적인 RL 데이터로 사전학습한 모델보다 다운스트림 작업에서 더 높은 성능을 보였다.
  2. DLR을 이용해 데이터를 수집할수록 VLA 성능이 데이터 양에 비례해 향상되는 경향을 보였다.

이러한 발견은 인간 중심 데이터 파이프라인에서 알고리즘이 생성한 데이터 파이프라인으로 전환함으로써 비용을 절감하고 원칙적인 규모 확장이 가능함을 시사합니다. 요약하면 본 논문의 주요 기여는 다음과 같습니다.

  • 강화학습을 활용해 VLA 사전학습용 고품질·다양한 로봇 궤적을 생성하는 원칙적인 3단계 프레임워크 DLR을 제안한다.
  • DLR이 발견된 패턴의 다양성을 보존하고 단일 솔루션으로 붕괴되는 것을 방지한다는 이론적 분석을 제공한다.
  • DLR이 생성한 다양한 성공 궤적이 다운스트림 작업에서 파인튜닝될 때 기존 방법보다 우수한 성능을 보이는 VLA를 만든다는 실증 결과를 제시한다.

다양하고 고품질의 궤적은 범용 VLA 모델을 만드는 데 필수적입니다. 이러한 궤적을 수집하는 방법은 크게 세 가지로 나뉩니다.

  1. 인간 중심 접근법 – 실제 로봇 텔레오퍼레이션[13,28,50]이나 시뮬레이션 환경[7,40]을 이용하는 방식은 효과적이지만 노동 집약적이며 규모 확장이 어렵습니다.
  2. 월드 모델 기반 접근법 – 학습된 동역학을 이용해 궤적을 생성하는 방법[1,44,55]은 다양성을 제공하지만, 현재의 월드 모델은 정밀하고 장기적인 로봇 동작을 구현하는 데 한계가 있으며 시간에 따라 누적되는 오류가 발생합니다[12,15,70].
  3. 강화학습 기반 접근법 – 훈련된 RL 정책을 데이터 생성기로 활용하면 인간 시연보다 높은 품질의 데이터를 얻을 수 있습니다[11,46,53,58]. 그러나 전통적인 RL은 순전히 작업 성공을 최적화하기 때문에 보통 하나의 솔루션에 수렴합니다. 좁은 작업에서는 하나의 솔루션만으로도 충분할 수 있지만, 이는 일반 VLA 학습에 적합한 데이터셋이 되지 못합니다. 우리는 RL‑generator 패러다임을 따르면서, 다중 고성공 전략을 명시적으로 유도해 상태‑액션 커버리지를 넓히고 VLA 일반화를 위한 풍부한 사전 지식을 제공하고자 합니다.

**이전에는 RL이 VLA를 개선하는 데 주로 파인튜닝이나 사후 학습 단계에서 활용되었습니다. 예를 들어, 온라인 RL[9,10,16,20,29,36,38,63,64]은 VLA를 온라인 상호작용을 통해 미세조정하지만, VLA 모델이 대규모인 경우 비용이 많이 들고 속도가 느립니다. 오프라인 RL[5,21,35,43,62,65,66,68]은 고정된 데이터만으로 학습해 온라인 탐색을 피하지만, 데이터 품질과 보상 설계에 민감합니다. 우리의 DLR 프레임워크는 이와는 다른 접근을 취합니다. 대규모 VLA 모델을 직접 RL로 최적화하는 대신, 데이터 생성 전용의 경량 정책을 학습하고, 이를 통해 얻은 다양하고 고품질의 궤적을 대규모 VLA 모델의 사전학습에 활용합니다. 이렇게 하면 비용이 많이 드는 RL 최적화를 대규모 모델이 아닌 가벼운 정책에만 적용함으로써 전체 파이프라인의 효율성을 크게 높일 수 있습니다.

에이전트‑환경 상호작용은 마코프 결정 과정(MDP)[51]으로 모델링됩니다. MDP는 튜플 M = (S, A, P, R, ρ₀, γ) 로 정의되며, 여기서 S는 상태 공간, A는 행동 공간, P(s’|s,a) 는 상태 전이 함수, R(s,a) 는 보상 함수, ρ₀(s) 는 초기 상태 분포, γ∈[0,1) 은 할인 계수입니다. 파라미터 θ 를 갖는 정책 π_θ(·|s) 는 상태 s 를 입력받아 행동 분포를 출력합니다. 에이전트는 정책에 따라 행동을 샘플링하고, 그 결과로 궤적 τ = (s₀, a₀, s₁, a₁, …, s_T) 를 생성합니다. 여기서 s₀는 ρ₀ 로부터 샘플링됩니다. 정책 π에 대한 할인된 상태 방문 분포는 다음과 같이 정의됩니다.

[ d_{\pi}(s)= (1-\gamma)\sum_{t=0}^{\infty}\gamma^{t}\Pr(s_t=s\mid s_0\sim\rho_0,\pi) ]

최적 정책을 얻기 위한 표준 RL 목표는 기대 반환을 최대화하는 것입니다.

[ \max_{\theta}; \mathbb{E}{\tau\sim\pi{\theta}}[R(\tau)],\qquad R(\tau)=\sum_{t=0}^{T-1}\gamma^{t}r_t ]

실제 환경에서는 보통 희소 보상 함수를 사용합니다. 성공적인 궤적의 마지막 단계에서만 +1 보상을 주고, 그 외에는 0을 반환합니다. 이때 I_{succ}(τ)∈{0,1} 로 성공 여부를 표시하면, 할인된 반환은 R(τ)=γ^{T-1}·I_{succ}(τ) 로 쓸 수 있습니다. 할인 계수 γ는 짧고 효율적인 성공 궤적을 장려합니다.

다양한 행동 레퍼토리를 만들기 위해 우리는 잠재 변수 z∈𝒵 를 도입해 서로 다른 행동 패턴을 나타냅니다. 이에 따라 패턴‑조건화 정책 π_θ(a|s,z) 를 정의하고, 추론 시에는 보통 균등한 범주형 사전 분포 p(z) 로부터 z 를 샘플링합니다. 서로 다른 z 를 조건으로 주면 정책은 다양한 성공 궤적을 생성할 수 있습니다.

패턴‑조건화 정책을 학습하기 위해서는 패턴 분포와 해당 패턴에 의해 생성된 궤적 분포 모두에 대해 기대 반환을 평균화하는 목표를 최적화합니다.

[ \max_{\theta}; \mathbb{E}{z\sim p(z)}\bigl[ \mathbb{E}{\tau\sim\pi_{\theta}(\cdot|\cdot,z)}[R(\tau)]\bigr] ]

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키