시각언어 모델 기반 로봇 조작 평가와 지시 해석 연구

초록

본 연구는 다중모달 언어 모델이 제시하는 질문‑응답, 사고 과정, 그리고 로봇 조작 명령을 평가한다. “강아지는 몇 마리인가?”라는 질문에 대해 좌표 (x1=50, y1=100)와 함께 4마리라는 답을 제시하고, 이어서 “문을 열 수 있다”, “화장실을 나갈 수 있는가?”와 같은 추론 과정을 보여준다. Argos 검증기, Grounding DINO, SAM‑2를 활용한 포인팅 핸드 평가와 문자열 매칭 LM 점수, 시각적 그라운딩 점수(0.66), 정확도 점수(0.0, 1.0)를 보고한다. 마지막으로 로봇이 화장실 뒤쪽에 화장지 두 개를 배치하는 조작 과제를 수행한다.

상세 요약

이 논문은 전통적인 자연어 처리(NLP)와 컴퓨터 비전(CV) 기술을 결합한 멀티모달 시스템의 성능을 다각도로 검증한다는 점에서 흥미롭다. 첫 번째 질문 “How many dogs are there?”에 대한 응답은 좌표 정보 (x1=50, y1=100)를 포함하고, 이를 기반으로 4마리라는 정량적 답을 도출한다. 이는 모델이 이미지 내 객체를 탐지하고, 해당 객체의 위치와 개수를 정량화하는 능력을 시사한다. 이어지는 “ … Yes. I can open the door. Can I leave the bathroom?”라는 구문은 내부 사고(Chain‑of‑Thought) 과정을 텍스트로 외부에 드러내는 메타‑프롬프트 기법을 사용했으며, 로봇이 환경과 상호작용할 수 있는 의사결정 흐름을 모델링한다는 점에서 의미가 크다.

Argos verifier, Grounding DINO, SAM‑2와 같은 최신 비전 모델을 결합한 “Pointing Hand Evaluation”은 손이 가리키는 위치와 텍스트 명령 사이의 정합성을 측정한다. 여기서 제시된 “String Match LM score”는 언어 모델이 생성한 텍스트와 정답 문자열 간의 일치 정도를 수치화한 것이며, “Visual grounding score: 0.66”은 시각적 객체와 언어 표현 사이의 매핑 정확도를 나타낸다. 흥미롭게도 “Acc score: 0.0”과 “Acc score: 1.0”이라는 두 개의 정확도 점수가 동시에 보고되는데, 이는 서로 다른 평가 기준(예: 전역 정확도 vs. 단계별 정확도) 혹은 서로 다른 테스트 샘플에 대한 결과일 가능성을 시사한다.

마지막 로봇 조작 과제인 “Place two rolls of toilet paper on the back of a toilet”는 실세계 물리적 작업 수행 능력을 검증한다. 이 과제는 단순히 물체를 잡고 이동하는 수준을 넘어, 특정 위치(화장실 뒤쪽)와 물체의 정렬(두 개의 롤)까지 고려해야 하므로, 고차원적인 공간 인식과 정밀 제어가 요구된다. 전체적으로 본 논문은 언어‑시각‑동작 삼위일체를 통합한 평가 프레임워크를 제시하고, 각 모듈별 성능 지표를 명시함으로써 향후 멀티모달 로봇 시스템 개발에 중요한 기준점을 제공한다.

초록

상세 요약

📜 논문 원문 (영문)