로봇 데이터 증강의 새로운 패러다임, 앵커드림
초록
AnchorDream은 소수의 실제 로봇 데모만으로 대규모 학습 데이터를 합성하는 새로운 방법입니다. 사전 학습된 비디오 확산 모델을 활용하되, 로봇의 움직임 영상을 조건으로 주어 로봇의 형태와 운동학을 보존하면서도 다양한 객체와 환경을 생성합니다. 이를 통해 시뮬레이션 의존성과 시각적 증강의 한계를 넘어, 행동까지 다양화하는 고품질 데이터셋을 만들어 내고, 실제 정책 학습 성능을 크게 향상시킵니다.
상세 분석
AnchorDream의 핵심 기술적 통찰은 ‘로봇 궤적과 환경 합성의 분리’라는 패러다임 전환에 있습니다. 기존 방법은 시뮬레이션 내에서 전체 장면(로봇+환경)을 재현하고 새로운 궤적을 실행해야 했거나, 생성 모델이 로봇과 환경을 함께 만들어 내다 보니 로봇 형태가 왜곡되는 ‘환각’ 문제가 발생했습니다.
AnchorDream은 이 문제를 해결하기 위해 두 단계로 접근합니다. 첫째, 소수의 실제 궤적을 휴리스틱하게 변형 및 재조합하여 새로운 로봇 운동 궤적을 먼저 생성합니다. 이때 궤적의 운동학적 타당성은 보장됩니다. 둘째, 이 궤적을 바탕으로 로봇만 렌더링한 ‘모션 트레이스’ 비디오를 만듭니다. 이 비디오는 객체나 배경이 전혀 없는 깨끗한 로봇 움직임 영상입니다.
마지막으로, 사전 학습된 대규모 비디오 확산 모델에 이 모션 트레이스 비디오와 작업 지시문을 조건으로 함께 입력합니다. 모델은 “이 로봇이 이렇게 움직이고 있는데, 무슨 일을 하는 걸까?“라는 문제를 해결하며, 로봇 주변에 일관성 있는 객체와 배경을 ‘추론’하여 채워 넣습니다. 이는 생성 과정을 로봇 운동에 ‘닻을 내린(Anchored)’ 상태로 유지시켜 환각을 방지합니다.
또한, 장기간 궤적 생성 시 발생하는 ‘지역적 맥락 한계’ 문제를 해결하기 위해 ‘글로벌 궤적 조건화’를 도입했습니다. 생성 중인 현재 구간뿐만 아니라 미래의 전체 궤적 정보를 추가 조건으로 제공함으로써, 생성된 객체의 위치가 로봇의 후속 동작과 충돌하지 않도록 조정합니다. 예를 들어, 로봇이 나중에 특정 위치에 물체를 놓을 계획이라면, 생성 단계에서 그 위치를 비워 두도록 유도할 수 있습니다.
이 방법론의 가장 큰 강점은 명시적인 3D 장면 재구성이나 정교한 물리 시뮬레이션 없이도, 인터넷 규모 데이터로 학습된 비디오 모델의 강력한 시각적·물리적 사전 지식을 로봇 도메인에 정확하게 정착시킬 수 있다는 점입니다. 이는 시뮬레이션 자산 구축의 엄청난 비용과 sim-to-real 격차 문제를 우회하는 실용적인 경로를 제시합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기