
VLA-RAIL VLA 모델과 로봇을 위한 실시간 비동기 추론 링커
비전-언어-행동(VLA) 모델은 로봇이 자연 언어 명령을 이해하고, 공간-시각적 의미를 추출하며, 열린 세계 조작 작업에 적합한 행동을 생성할 수 있게 합니다. 그러나 VLA 모델의 배포는 다양한 하드웨어 구성과 소프트웨어 인터페이스로 인해 한정되어 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간 비동기 추론 프레임워크인 VLA-RAIL을 제안합니다.
'Robotics' 카테고리의 모든 글

비전-언어-행동(VLA) 모델은 로봇이 자연 언어 명령을 이해하고, 공간-시각적 의미를 추출하며, 열린 세계 조작 작업에 적합한 행동을 생성할 수 있게 합니다. 그러나 VLA 모델의 배포는 다양한 하드웨어 구성과 소프트웨어 인터페이스로 인해 한정되어 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간 비동기 추론 프레임워크인 VLA-RAIL을 제안합니다.
이 논문은 로봇의 노래를 표현하는 방법을 제안하며, 이는 인간의 감정과 행동을 모방하는 중요한 기준이다. 특히, 데이터 주도적인 접근법을 사용하여 가수의 감정과 리듬에 맞춰 로봇의 얼굴 표정을 동기화시키는 데 중점을 두었다. 이를 통해 로봇은 노래하면서 자연스러운 입동작과 감정 표현을 할 수 있다.

이 논문은 로봇의 개방 세계 조작에 대한 새로운 접근 방식을 제안한다. 이를 위해 비전 기반 모델로 합성된 동영상에서 3D 객체 흐름을 추출하고, 이 3D 객체 흐름을 바탕으로 로봇이 수행할 액션을 계획하는 방법을 설명한다.

인간형 로봇이 수행할 수 있는 복잡한 작업에 대해, 이 논문은 전체 몸통 조정과 적응적인 움직임을 통합하는 방법론을 제시한다. 특히, 학습 과정에서 다중 모드 행동을 포착하고 효율적으로 제어하기 위한 새로운 정책인 Choice Policy를 소개하며, 이는 신경망의 단일 순방향 패스로 빠른 추론을 가능하게 한다.

이 논문에서는 서비스 로봇이 주방이나 청소 등의 일상적인 작업을 돕기 위해 필요한 공통 가구의 가동부를 예측하고 조작하는 방법에 대해 다룹니다. 특히, 본 연구는 시각적 데이터와 힘 센싱 및 측위 센싱을 결합하여 실시간으로 가동부 모델을 추정하는 새로운 방법론을 제시합니다. ###

> Vision-Language-Action(VLA) 모델은 로봇 조작에 강력한 일반화 정책으로 등장했지만, 행동 클로닝에 의존하기 때문에 분포 변동 시 민감하고 취약하다. 사전 훈련된 모델을 Monte Carlo Tree Search(MCTS)와 같은 검색 알고리즘으로 보완해도 VLA prior가 미래의 기대 수익률을 추정하는 데 부족함이 있어, 정확하지 않은 prior는 광범위한 시뮬레이션 없이는 행동 선택을 수정할 수 없다. 이를 해결하기 위해 우리는 Value Vision-Language-Action Planning and Search(V-VLAPS) 프레임워크를 도입하여 MCTS에 가벼운 학습 가능한 가치 함수를 추가한다. VLA 백본의 잠재 표현(Octo) 위에서 간단한 다층 퍼셉트론(MLP)을 훈련시켜 검색에 명시적인 성공 신호를 제공하고, 이를 통해 행동 선택이 높은 가치 영역으로 편향된다. LIBERO 로봇 조작 스위트에서 V-VLAPS를 평가한 결과, 우리의 가치 지향적 검색이 성공률을 5% 이상 향상시키고 MCTS 시뮬레이션의 평균 횟수를 5-15% 줄이는 것으로 나타났다.

다중 로봇 시스템은 큰 환경에서 효율적인 조정이 필요한 커버리지 작업에 널리 사용됩니다. 다중 로봇 커버리지 경로 계획(MCPP)에서는 전체 지역을 커버하는 중복되지 않는 경로를 생성하여 완료 시간을 최소화하는 것이 주요 목표입니다. 그러나 대부분의 기존 방법들은 영역 간의 중요도가 균일하다고 가정함으로써 일부 구역에 더 빠른 주의가 필요할 때 그 효율성이 제한됩니다. 우리는 환경의 일부를 우선순위 구역으로 지정하고 연관된 가중치를 부여하는 우선 순위 인식 MCPP(PA-MCPP) 문제를 도입합니다. 목표는 영역 커버리지의 총 중요도 가중 지연과 전체 완료 시간을 사전순서로 최소화하는 것입니다. 이를 해결하기 위해 우리는 (1) 탐욕스러운 구역 할당 및 로컬 검색, 스패닝 트리 기반 경로 계획과 (2) 스테이너 트리 지도 잔여 커버리지를 결합한 확장 가능한 이단계 프레임워크를 제안합니다. 다양한 시나리오에서의 실험은 우리의 방법이 표준 MCPP 기준에 비해 우선순위 가중치 지연을 크게 줄이고 경쟁적인 완료 시간을 유지한다는 것을 보여줍니다. 민감도 분석은 또한 이 방법이 로봇 수와 잘 확장되며, 구역 커버리지 동작이 우선순위 가중치를 조정하여 효과적으로 제어될 수 있음을 보여줍니다.

본 논문에서는 자율주행차량이 사회적 규칙을 준수하도록 하는 새로운 접근법인 LSRE(Latent Semantic Rule Encoding)를 제안합니다. 이 방법은 비언어적인 의미 규정을 빠르게 평가할 수 있는 가벼운 분류기를 학습하는 것을 목표로 합니다.

로봇 수확 장비가 농업 생산성을 향상시키고 노동 의존도를 줄이는 데 큰 잠재력을 보여주지만, 기계적, 전기적, 제어 부품의 결함이 여전히 존재하여 작동의 안정성과 연속성을 해칩니다. 이 논문에서는 이러한 문제를 해결하기 위해 시각 인식을 통합한 다중 작업 퍼셉션 네트워크와 위치 오류 보상 방법, 초기 중단 전략을 도입했습니다.

최근 자율주행 차량은 제한된 환경에서 일반 도로로 전환되었으며, 특히 샌프란시스코에서는 로봇택시 서비스가 안전하게 운영되고 있습니다. 그러나 미세 충돌과 교통 지연이 증가하고 있으며 이에 대한 보고와 개선 사항의 부재는 공공의 신뢰를 저하시키고 있습니다. 본 논문은 자율주행 시뮬레이션 환경에서의 테스트 효율성을 높이는 방법을 제시하며, 이를 통해 안전한 자동차 경주에 적용되었습니다.

현재 자율 제어를 위한 강화 학습의 시도는 데이터 요구량이 많고 결과가 미흡하며 안정적이지 않고, 또한 픽셀 재구성의 특성상 잡음 특징에 과도하게 집중하여 안전 개념을 이해하고 이를 기반으로 하지 못하는 문제점이 있습니다. 현재 Self-Supervised Learning 접근 방식은 JEPA(Joint Embedding Predictive Architecture)를 활용해 고차원 표현을 학습하는데 흥미롭고 효과적인 대안입니다. 이 아이디어는 인간의 뇌가 상상력과 최소한의 관찰 샘플만으로 새로운 기술을 습득하는 자연스러운 능력을 모방하고 있습니다. 본 연구에서는 JEPA를 기반으로 한 세계 모델인 하노이월드(Hanoi-World)를 소개하며, 이는 재귀 신경망(RNN)을 활용해 효과적인 추론 시간과 함께 장기 수평 계획을 수행할 수 있게 합니다. 실험은 차이점 환경의 Highway-Env 패키지에서 이루어졌으며, SOTA 기준선들과 비교했을 때 충돌률이 상당히 감소하면서 안전 인식을 가진 운전 계획을 만드는 능력을 효과적으로 보여주고 있습니다.
검색어를 입력하세요