사족보행 로봇의 자율 물체 잡기와 작업 수준 인터랙션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사족보행 로봇에 경량형 로봇 팔과 그리퍼를 장착하고, ROS 기반 계층형 제어와 웹‑기반 인터페이스를 통해 작업‑수준 인간‑로봇 상호작용을 구현한다. YOLOv8n과 GraspNet을 이용한 물체 인식·그립 후보 생성·3단계 필터링 파이프라인을 적용해 12회 실험 중 75%의 성공률을 달성하였다.

상세 분석

이 연구는 사족보행 플랫폼(Lite3)과 모듈형 팔(OpenManipulator‑X)을 하나의 중앙 임베디드 유닛(NVIDIA Jetson Orin NX)으로 통합한 하드웨어 아키텍처를 제시한다. 하드웨어 설계는 3D 프린팅으로 제작한 맞춤형 마운트를 사용해 무게 중심을 최소화하고, 팔·카메라·센서가 충돌 없이 배치되도록 최적화하였다. 소프트웨어는 ROS 2 기반의 계층형 제어 구조를 채택했으며, 고수준 사용자 입력(목표 방 선택, 객체 클릭/드래그) → 작업‑레벨 FSM(탐색, 접근, 그립) → 저수준 locomotion·manipulation 로 매핑한다. 특히 FSM은 네 개의 주요 상태(네비게이션, 스캔, 트래킹, 그립)와 전이 조건을 명시적으로 정의해, 사용자가 언제든 중단·재시작이 가능하도록 설계돼 인간‑로봇 협업의 유연성을 높였다.

시각 인식 파이프라인은 두 단계로 구성된다. 첫 번째는 실시간 RGB 영상에서 YOLOv8n(경량 모델)으로 객체를 검출하고, 사용자가 선택한 바운딩 박스를 기반으로 cv2.TrackerCSRT를 이용해 대상 객체를 추적한다. 두 번째는 팔에 장착된 RealSense D435i에서 얻은 정밀 깊이와 색상 프레임, 카메라 내부 파라미터를 GraspNet에 입력해 6‑DOF 그립 후보를 생성한다. 생성된 후보는 (1) 신뢰도 상위 20개 선택, (2) 객체 중심과의 거리 최소화, (3) 로봇 팔의 관절 제한을 고려한 회전 보정이라는 3단계 필터링을 거쳐 최적 그립을 도출한다. 이 과정에서 카메라 프레임 → 로봇 베이스 프레임 변환을 kinematic 모델(

사족보행 로봇의 자율 물체 잡기와 작업 수준 인터랙션

초록

상세 분석

댓글 및 학술 토론

의견 남기기