모호한 명령을 위한 어포던스 인식 인터랙티브 로봇 의사결정 프레임워크 AIDE
초록
AIDE는 이중 스트림(MSI·ADM) 구조와 멀티모달 체인‑오브‑생각(MM‑CoT) 모듈을 결합해, 모호한 인간 지시를 실시간으로 해석·계획하고 환경 탐색·상호작용을 통해 물체 어포던스를 파악한다. 실험에서 80% 이상의 작업 계획 성공률과 10 Hz 폐쇄‑루프 실행에서 95% 이상의 정확도를 달성하였다.
상세 분석
본 논문은 기존 비전‑언어 모델(VLM) 기반 로봇 플래닝이 “추론 비효율·환경 상호작용 부재”라는 두 가지 근본적인 한계에 직면한다는 점을 지적한다. 이를 극복하기 위해 제안된 AIDE는 (1) 의사결정 스트림(Multi‑Stage Inference, MSI)과 (2) 실행 스트림(Accelerated Decision‑Making, ADM)으로 구성된 이중‑스트림 아키텍처를 도입한다. MSI는 새로운 상황이나 ADM이 유효한 도구를 찾지 못했을 때 한 번만 호출되어, 멀티모달 체인‑오브‑생각(MM‑CoT)과 탐색 정책을 통해 핵심 작업 계획을 생성한다. 이때 GPT‑5 기반의 멀티모달 프롬프트 엔지니어링이 도구 종류, 주요 부위(핸들·본체) 등을 예측하고, YOLO‑World와 SAM2가 실제 이미지에서 후보 객체를 검출·세분화한다.
생성된 작업 계획은 “Instruction‑Tool Relationship Space”에 인덱싱된다. 이 공간은 (i) 지시‑도구 관계, (ii) 도구‑도구 및 지시‑지시 관계를 어포던스 점수 벡터를 기반으로 클러스터링함으로써 다대다 매핑을 형성한다. 어포던스 점수는 GPT‑5가 X 차원(논문에서는 구체적 차원 수를 명시하지 않음)으로 도구와 지시의 물리적·기능적 적합성을 평가한 결과이며, k‑means 클러스터링을 통해 카테고리 수준 어포던스가 추출된다. 이 과정은 VLM의 “환각”을 억제하고, 동일 지시가 다양한 환경에서 일관된 도구 선택을 가능하게 만든다.
ADM 스트림은 10 Hz 실시간 폐쇄‑루프 실행을 목표로, MSI에서 저장된 관계 공간과 ERS(Efficient Retrieval Scheme)를 활용해 지속적으로 장면을 재검색한다. 탐색 정책은 (① 가시 탐색, ② 가시 내 탐색, ③ 비탐색) 세 단계로 구분되며, 로봇은 현재 시점의 탐지 신뢰도와 거리 정보를 기반으로 가장 적절한 행동(접근, 재구성, 직접 조작)을 선택한다. 이렇게 반복되는 탐색‑플래닝‑실행 사이클은 로봇이 미지의 물체를 직접 조작하거나 인간에게 추가 정보를 요청하는 형태까지 확장될 수 있다.
실험은 시뮬레이션과 실제 로봇 환경에서 400개 이상의 테스트 샘플을 대상으로 수행되었다. AIDE는 기존 VLM 기반 플래너 대비 (1) 작업 계획 성공률 80% → ≥ 80% (동등 수준), (2) 연속 실행 정확도 95% → ≥ 95% (현저히 우수), (3) 10 Hz 실시간 처리 속도 확보라는 세 축에서 우수성을 입증했다. 특히, 복합적인 어포던스 요구(예: “나는 목이 마르다” → 컵, 물병, 심지어 그릇까지)에서 다양한 대안을 탐색하고 선택하는 능력이 강조된다.
핵심 기여는 다음과 같다.
- 이중‑스트림 프레임워크: MSI와 ADM을 명확히 구분해 고비용 추론을 최소화하고 실시간 실행을 보장한다.
- 멀티모달 CoT: GPT‑5와 최신 시각 모델(YOLO‑World, SAM2)을 결합해 ‘도구 종류·핵심 부위’ 예측과 정확한 영역 세분화를 동시에 수행한다.
- Instruction‑Tool Relationship Space: 어포던스 점수 기반 클러스터링을 통해 다대다 관계를 구조화하고, VLM 환각을 억제한다.
- Efficient Retrieval Scheme: DFS‑기반 검색과 벡터 유사도 매칭을 활용해 빠른 후보 선택을 가능하게 한다.
- 실시간 탐색 정책: 가시·가시내·비탐색 단계로 로봇 행동을 동적으로 전환, 환경 변화에 강인한 적응성을 제공한다.
전반적으로 AIDE는 “모호한 인간 지시 → 어포던스 기반 도구 선택 → 실시간 폐쇄‑루프 실행”이라는 파이프라인을 통합함으로써, 기존 VLM‑기반 로봇 플래닝이 직면한 추론 지연과 환경 불확실성을 효과적으로 해소한다는 점에서 로봇 인공지능 분야에 중요한 전진을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기