숨은 식기 찾기: 가정용 로봇을 위한 저장 위치 추론
읽는 시간: 2 분
...
📝 원문 정보
- Title: Break Out the Silverware – Semantic Understanding of Stored Household Items
- ArXiv ID: 2512.23739
- 발행일: 2025-12-25
- 저자: Michaela Levi-Richter, Reuth Mirsky, Oren Glickman
📝 초록 (Abstract)
“접시를 가져와.” 가정용 서비스 로봇에게 이 간단한 명령은 일상적인 물건이 서랍, 캐비닛, 옷장 등 시야 밖에 보관되는 위치를 추론해야 하는 복잡한 과제를 드러낸다. 시각 및 조작 기술이 발전했음에도 로봇은 이러한 상식적 추론 능력이 부족하다. 우리는 서비스 로봇의 인지 능력을 평가하기 위한 벤치마크인 Stored Household Item Challenge를 제시한다. 이 과제는 가정 장면과 질의된 물건이 주어졌을 때 가장 가능성 높은 저장 위치를 예측하도록 요구한다. 벤치마크는 (1) 실제 가정 주방에서 100개의 물건‑이미지 쌍과 인간이 주석한 정답을 포함한 평가 세트와, (2) 공개 주방 이미지에 저장 영역 다각형을 주석한 6,500개의 물건‑이미지 쌍을 포함한 개발 세트로 구성된다. 이 데이터셋은 가정 내 정리 방식을 현실적으로 모델링하고 다양한 에이전트 아키텍처의 비교 평가를 가능하게 한다. 초기 접근법으로 우리는 NOAM(Non-visible Object Allocation Model)이라는 하이브리드 파이프라인을 제안한다. NOAM은 시각 입력을 공간적 맥락과 보이는 용기의 자연어 설명으로 변환한 뒤, 대형 언어 모델(GPT‑4 등)에 프롬프트하여 가장 가능성 높은 숨은 저장 위치를 추론한다. 이 통합 비전‑언어 에이전트는 급성장하는 상식 추론 능력을 보여주며 로봇 시스템에 모듈식으로 배치될 수 있다. 우리는 무작위 선택, Vision‑Language 파이프라인(Grounding‑DINO + SAM), 최신 멀티모달 모델(Gemini, GPT‑4o, Kosmos‑2, LLaMA, Qwen) 및 인간 성능과 비교하여 NOAM을 평가한다. NOAM은 예측 정확도를 크게 향상시키고 인간 수준에 근접한 결과를 보여, 가정 환경에서 인지 능력이 뛰어난 에이전트를 배치하기 위한 최선의 실천 방안을 강조한다.💡 논문 핵심 해설 (Deep Analysis)
