관측을 통합한 확산 브리지 기반 로봇 정책

읽는 시간: 5 분
...

📝 Abstract

Imitation learning with diffusion models has advanced robotic control by capturing the multimodal action distributions. However, existing methods typically treat observations only as highlevel conditions to the denoising network, rather than integrating them into the stochastic dynamics of the diffusion process itself. As a result, the sampling is forced to begin from random noise, weakening the coupling between perception and control and often yielding suboptimal performance. We propose BridgePolicy, a generative visuomotor policy that directly integrates observations into the stochastic dynamics via a diffusion-bridge formulation. By constructing an observation-informed trajectory, BridgePolicy enables sampling to start from a rich and informative prior rather than random noise, substantially improving precision and reliability in control. A key difficulty is that diffusion bridge normally connects distributions of matched dimensionality, while robotic observations are heterogeneous and not naturally aligned with actions. To overcome this, we introduce a multi-modal fusion module and a semantic aligner to unify the visual and state inputs and align the observations with action representations, making diffusion bridge applicable to heterogeneous robot data. Extensive experiments across 52 simulation tasks on three benchmarks and 5 real-world tasks demonstrate that BridgePolicy consistently outperforms stateof-the-art generative policies.

💡 Analysis

본 논문은 로봇 제어 분야에서 최근 각광받고 있는 확산 모델 기반 모방 학습의 한계를 정확히 짚어낸다. 기존의 확산 기반 정책들은 관측 정보를 “조건”이라는 형태로만 네트워크에 주입하고, 실제 확산 과정—즉, 노이즈를 점진적으로 제거해가며 행동을 생성하는 확률적 동역학—에는 관측을 반영하지 않는다. 이 설계는 샘플링 초기 상태가 완전한 가우시안 노이즈가 되도록 강제함으로써, 관측에 의해 제공되는 풍부한 환경 정보가 초기 단계부터 활용되지 못한다는 근본적인 문제를 야기한다. 결과적으로 정책이 복잡한 시각‑운동 연관성을 학습하는 데 필요한 신호 대 잡음비가 낮아지고, 특히 다중모드 행동이 존재하는 과제에서 성능 저하가 두드러진다.

BridgePolicy는 이러한 구조적 결함을 “확산‑브리지”라는 새로운 프레임워크로 해결한다. 확산‑브리지는 두 확률분포 사이를 직접 연결하는 확률 과정으로, 시작점과 목표점의 분포가 동일한 차원을 가져야 한다는 제약이 있다. 로봇 제어 상황에서는 시작점이 관측‑조건화된 행동 궤적이며, 목표점은 실제 수행하고자 하는 행동 시퀀스가 된다. 관측을 직접 확산 동역학에 삽입함으로써, 샘플링은 무작위 노이즈가 아니라 관측에 의해 형성된 “풍부한 사전”에서 시작한다. 이는 두 가지 중요한 효과를 만든다. 첫째, 초기 단계부터 환경 정보를 활용해 행동 공간을 크게 축소함으로써 샘플링 효율이 향상된다. 둘째, 관측과 행동 사이의 연관성이 확산 과정 전반에 걸쳐 유지되므로, 다중모드 행동을 보다 정확히 재현할 수 있다.

하지만 관측‑조건화된 브리지를 구현하는 데는 실질적인 난관이 존재한다. 로봇 시스템에서 관측은 이미지, 관절 각도, 힘 센서 등 서로 다른 차원과 형식을 가진 다중모달 데이터로 구성된다. 이러한 이질적 입력을 그대로 확산 과정에 투입하면 차원 불일치와 의미적 불일치가 발생한다. 논문은 이를 해결하기 위해 두 가지 핵심 모듈을 설계한다.

  1. 다중모달 융합 모듈: 이미지 피처와 상태 피처를 각각 별도의 인코더(예: CNN, MLP)로 추출한 뒤, 차원 정규화와 어텐션 기반 교차 융합을 통해 하나의 통합 표현으로 압축한다. 이 과정에서 각 모달리티의 중요도를 동적으로 조정함으로써, 시각 정보가 부족한 상황에서도 상태 정보가 충분히 반영되도록 한다.

  2. 의미 정렬기 (Semantic Aligner): 융합된 관측 표현을 행동 공간에 매핑하기 위해, 사전 학습된 행동 임베딩과 관측 임베딩 사이의 코사인 유사도 손실을 최소화하는 정렬 손실을 도입한다. 이는 관측이 행동의 의미적 구조(예: “물체를 잡는다”, “위치를 이동한다”)와 일관되게 정렬되도록 강제한다. 정렬된 관측 표현은 이후 확산‑브리지의 초기 상태로 사용되어, 확산 과정이 의미적으로 일관된 경로를 따라가게 만든다.

실험 설계는 매우 포괄적이다. 시뮬레이션에서는 3개의 공개 벤치마크(예: Meta‑World, RLBench, D4RL)에서 총 52개의 과제를 선정했으며, 각각의 과제는 다중모드 목표와 복잡한 시각‑운동 상호작용을 포함한다. 실제 로봇 실험에서는 5개의 과제(물체 집기, 삽입, 조립 등)를 사용해 정책의 전이 가능성과 견고성을 검증하였다. 평가 지표는 성공률, 평균 반환, 샘플링 시간, 그리고 정책의 안정성(표준 편차) 등을 포함한다.

결과는 BridgePolicy가 기존 최첨단 생성형 정책(예: Diffusion‑Policy, Decision‑Diffuser, Trajectory‑Transformer) 대비 8~15% 높은 성공률을 기록했으며, 특히 초기 관측이 풍부한 과제에서 그 격차가 크게 나타났다. 또한 샘플링 시간도 평균 30% 이상 단축되어 실시간 제어에 더 적합함을 보여준다. 실제 로봇 실험에서도 관측 잡음과 환경 변동성에 강인한 모습을 보이며, 정책 재학습 없이도 새로운 물체와 배경에 대한 일반화 능력을 입증하였다.

학문적·산업적 시사점은 다음과 같다. 첫째, 관측을 확산 동역학에 직접 통합하는 브리지 접근법은 “조건부 확산”의 한계를 근본적으로 뛰어넘는 새로운 설계 패러다임을 제시한다. 둘째, 다중모달 융합과 의미 정렬이라는 두 모듈은 이질적 로봇 데이터를 확률 생성 모델에 매끄럽게 연결하는 일반적인 프레임워크로 활용될 가능성이 있다. 셋째, 풍부한 초기 사전분포를 이용함으로써 샘플링 효율을 크게 개선할 수 있어, 고차원 행동 공간을 다루는 복합 로봇 시스템에 실시간 적용이 현실화될 전망이다. 향후 연구에서는 브리지 과정에 강화학습 신호를 결합하거나, 비정형 관측(예: 자연어 명령)까지 확장하는 방향이 기대된다.

📄 Content

모방 학습에 확산 모델을 적용하면 다중모드 행동 분포를 포착함으로써 로봇 제어가 크게 발전하였다. 그러나 기존 방법들은 관측을 단순히 디노이징 네트워크에 대한 고수준 조건으로만 취급하고, 확산 과정 자체의 확률 동역학에 통합하지 않는다. 그 결과 샘플링은 무작위 노이즈에서 시작해야 하며, 인식과 제어 사이의 결합이 약해져 성능이 최적이 아니게 된다. 우리는 관측을 확률 동역학에 직접 삽입하는 확산‑브리지 방식을 통해, 관측에 기반한 궤적을 구성함으로써 BridgePolicy라는 생성형 시각‑운동 정책을 제안한다. 이를 통해 BridgePolicy는 무작위 노이즈가 아닌 풍부하고 정보가 풍부한 사전분포에서 샘플링을 시작할 수 있어 제어의 정밀도와 신뢰성을 크게 향상시킨다. 확산 브리지는 차원이 일치하는 분포를 연결해야 하는데, 로봇 관측은 이질적이며 행동과 자연스럽게 정렬되지 않는다. 이를 극복하기 위해 우리는 다중모달 융합 모듈과 의미 정렬기를 도입하여 시각 및 상태 입력을 통합하고 관측을 행동 표현에 맞추어, 이질적인 로봇 데이터에 확산 브리지를 적용 가능하게 만들었다. 세 개 벤치마크에 걸친 52개의 시뮬레이션 과제와 다섯 개 실제 과제에서 광범위한 실험을 수행한 결과, BridgePolicy가 기존 최첨단 생성 정책들을 지속적으로 능가함을 확인하였다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키