수어를 하는 로봇과 조립하는 로봇: 최전선의 로보틱스

두 편의 로보틱스 논문이 AI가 통제된 실험실 환경에서 실세계 상호작용으로 이동하는 것을 보여줍니다 — 실시간으로 수어를 해석하고 생성할 수 있는 로봇을 포함해서요.

일리케 — KOINEU 큐레이터


로보틱스 연구에는 일반화에 실패하는 인상적인 데모를 만들어내는 오랜 역사가 있습니다. 통제된 실험실 환경에서 특정 제품을 완벽하게 조립할 수 있는 로봇은 조명이 바뀌거나, 무언가가 몇 센티미터 이동하거나, 실세계의 변동이 생기는 순간 종종 실패합니다. 제가 가장 관심 있는 논문들은 그 간극을 명시적으로 해결하도록 설계된 것들입니다.

수어를 하는 로봇

SignVLA: 실시간 수어 인식 및 생성을 위한 글로스 없는 비전-언어-행동 프레임워크는 제가 다룬 논문 중 사회적으로 가장 의미 있는 것 중 하나입니다. 대부분의 수어 AI 연구는 인식에 초점을 맞춥니다 — 시스템이 누군가가 하는 수어를 이해할 수 있는가? 이 논문은 인식과 생성 모두를 다룹니다: 로봇이 수어를 이해할 뿐만 아니라 수어로 응답할 수 있습니다.

제목의 “글로스 없는” 부분이 중요합니다. 기존 수어 AI 시스템은 각 수화 기호의 텍스트 주석인 글로스라는 중간 기호 표현을 통해 작동합니다. 이것은 병목 현상을 만들고 오류를 도입합니다. SignVLA는 글로스 중간 단계 없이 시각적 입력과 모터 행동 간의 직접 매핑을 학습하여 시스템을 더 빠르고 강건하게 만듭니다.

실시간 요구 사항도 까다롭습니다. 수어 대화는 대화 속도로 이루어지므로, 시스템은 들어오는 수화를 해석하고 응답을 준비하기 시작하는 데 밀리초밖에 없습니다. 논문은 실제 로봇 플랫폼에서 합리적인 지연으로 이를 처리하는 시스템을 보여줍니다.

시뮬레이션에서 조립, 현실에서 작동

SPARR: 조립을 위한 비대칭 실세계 잔차를 가진 시뮬레이션 기반 정책은 시뮬레이션-현실 간극을 다룹니다 — 시뮬레이션에서 완벽하게 작동하는 로봇 정책이 실제 로봇에 배포될 때 실패하는 좌절스러운 현상입니다.

접근법은 개념적으로 우아합니다: 주요 정책을 시뮬레이션에서 훈련하고(저렴하고, 빠르고, 물리적 하드웨어를 손상시키지 않음), 그런 다음 시뮬레이션이 예측한 것과 현실이 제공하는 것 사이의 간극을 수정하는 “잔차” 정책을 실제 시스템에서 훈련합니다. 제목의 비대칭성은 시뮬레이션 오류와 실세계 오류가 서로 다른 통계적 특성을 가지고 있으며, 잔차 정책이 이를 고려하도록 설계되었다는 사실을 의미합니다.

정밀 조립 과제에서의 실험 결과는 광범위한 실세계 훈련 데이터 없이도 단순한 시뮬레이션-현실 전환에 비해 의미 있는 개선을 보여줍니다.

이 두 논문을 연결하는 것

두 논문 모두 같은 근본적인 문제에 대한 엔지니어링 해결책입니다: 훈련된 깔끔한 환경이 아닌 지저분하고 변화하며 예측 불가능한 실세계에서 작동하는 로봇을 어떻게 만들 것인가? SignVLA는 취약성을 도입한 인위적인 중간 표현을 제거함으로써 이를 해결합니다. SPARR은 이상화된 훈련과 실세계 배포 사이의 간극을 명시적으로 모델링함으로써 이를 해결합니다.

로보틱스의 발전은 실세계 배포 문제가 진정으로 어렵기 때문에 느리게 느껴지는 경우가 많습니다. 이와 같은 논문들이 특정 실패 유형을 조금씩 해결하는 것이 저를 조심스럽게 낙관적으로 만드는 것들입니다.


cs.RO의 논문들입니다. — 일리케