미래표현 정렬을 통한 세계모델링 강화 로봇 정책 FRAPPE
초록
FRAPPE는 로봇 일반화 정책에 세계 모델링을 효율적으로 주입하기 위해 두 단계 파인튜닝 전략을 제안한다. 중간 단계에서는 미래 관찰의 잠재 표현을 예측하도록 학습하고, 사후 단계에서는 여러 시각 기반 파운데이션 모델과의 병렬 정렬을 통해 다중 전문가 네트워크와 라우터를 활용한다. 픽셀 재구성 의존을 최소화하고 행동 라벨이 없는 인간 egocentric 비디오를 활용함으로써 데이터 효율성을 높이며, RoboTwin 벤치마크와 실제 로봇 실험에서 기존 최첨단 방법들을 크게 앞선 성능을 보인다.
상세 분석
FRAPPE는 기존 VLA(Visual‑Language‑Action) 정책이 세계 모델링을 위해 미래 이미지 재구성에 과도하게 의존하는 문제점을 두 가지 관점에서 해결한다. 첫 번째는 학습 목표가 픽셀‑레벨 재구성에 초점을 맞추면 의미론적 특성 학습이 억제되고 OOD 상황에서 일반화가 저하된다는 점이다. 두 번째는 추론 시 예측된 미래 관찰을 직접 사용하면 오류가 누적돼 정책 안정성이 떨어진다. 이를 극복하기 위해 저자는 ‘Future Representation Alignment via Parallel Progressive Expansion(FRAPPE)’라는 프레임워크를 설계하였다.
중간 훈련 단계에서는 기존 RDT(Robotic Diffusion Transformer) 구조에 ‘미래 프리픽스’ 토큰 p를 삽입하고, 이를 통해 모델이 미래 관찰의 잠재 표현을 직접 예측하도록 한다. 여기서 교사 역할을 하는 시각 파운데이션 모델(VFM) — CLIP, DINOv2, ViT 등 — 의 임베딩 eₜ₊ₕ를 정지‑그래디언트(stop‑gradient) 처리한 뒤, 모델이 출력한 프리픽스 pₜ와 코사인 유사도 손실 L_Φ=cos(pₜ,sg(eₜ₊ₕ))를 최소화한다. 이 과정은 픽셀 재구성 대신 의미론적 특징을 정렬함으로써 모델이 환경 역학을 보다 압축된 형태로 학습하게 만든다.
사후 단계에서는 ‘Mixture‑of‑Prefix‑and‑LoRA(MiPA)’ 구조를 도입한다. 동일한 RDT 백본에 M개의 전문가 스트림을 병렬로 배치하고, 각 스트림마다 독립적인 프리픽스와 LoRA(저차원 적응) 모듈을 부착한다. 각 스트림은 서로 다른 VFM 교사와 정렬되며, 라우터 네트워크가 학습된 가중치 wᵢ를 통해 전문가들의 잠재 행동 표현 zᵢ를 가중합한다. 최종 행동은 공유 MLP 헤드에 전달된다. 라우터가 특정 스트림에 편중되는 현상을 방지하기 위해 로드‑밸런싱 손실 L_balance와 가중치 스무딩(ε=0.1)을 적용한다. 이는 전문가 활용을 균등하게 유지하면서 다중 시각 지식을 효율적으로 통합한다.
데이터 효율성 측면에서 FRAPPE는 행동 라벨이 없는 대규모 인간 egocentric 비디오를 활용한다. 중간 단계에서 미래 프리픽스만 학습하면 행동 라벨이 없어도 시각적 역학을 습득할 수 있어, 기존의 행동‑라벨 기반 모방학습 대비 10~15% 높은 성능 향상을 보인다. 또한, 파라미터 측면에서는 전체 모델 파라미터는 고정하고 프리픽스와 LoRA만 학습함으로써 메모리 풋프린트를 크게 낮춘다.
실험에서는 RoboTwin 2.0 시뮬레이션과 실제 로봇 장면에서 장기 목표(예: ‘당근을 집어 냄비에 넣기’)를 수행했을 때, FRAPPE는 최신 RDT, FLARE, UD‑VLA 등을 능가하였다. 특히 제한된 텔레오퍼레이션 데이터(120 traj/h)와 풍부한 인간 비디오(1k+시간)를 결합했을 때, 장기 성공률과 OOD 일반화에서 현저한 개선을 기록했다.
강점은 (1) 픽셀‑재구성 의존 최소화로 의미론적 일반화 강화, (2) 다중 VFM 정렬을 통한 전문가 다양성 확보, (3) 행동 라벨이 없는 데이터 활용으로 비용 절감, (4) 라우터 기반 로드‑밸런싱으로 안정적인 병렬 학습이다. 한계점으로는 (①) 다중 VFM 교사 선택이 성능에 민감할 수 있어 교사 모델의 품질과 다양성에 대한 추가 연구가 필요하고, (②) 라우터와 전문가 수가 늘어날 경우 추론 시 연산량이 증가해 실시간 제어에 대한 최적화가 요구된다.
전반적으로 FRAPPE는 세계 모델링을 일반화 로봇 정책에 통합하는 새로운 패러다임을 제시하며, 미래 비전‑언어‑행동 통합 모델의 확장성과 데이터 효율성을 동시에 달성한다는 점에서 로봇 학습 커뮤니티에 큰 파급 효과를 기대할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기