개인 맞춤형 물체 조작을 위한 시각‑언어‑행동 모델의 시각적 주의 프롬프팅

“로봇에게 내 컵을 가져와 달라”는 요청에 대해, 시스템은 메모리에서 해당 물체를 찾아 그 위치와 모습을 파악한다. 기존의 Vision‑Language‑Action(VLA) 모델은 일반적인, 언어로 표현 가능한 의미만을 이해할 수 있어 사용자가 정의한 개인 물체(예: <my cup>)를 다루지 못한다. 본 연구는 Visual Attentive Prompti

개인 맞춤형 물체 조작을 위한 시각‑언어‑행동 모델의 시각적 주의 프롬프팅

초록

“로봇에게 내 컵을 가져와 달라”는 요청에 대해, 시스템은 메모리에서 해당 물체를 찾아 그 위치와 모습을 파악한다. 기존의 Vision‑Language‑Action(VLA) 모델은 일반적인, 언어로 표현 가능한 의미만을 이해할 수 있어 사용자가 정의한 개인 물체(예: )를 다루지 못한다. 본 연구는 Visual Attentive Prompting(VAP)이라는 간단한 프레임워크를 제안한다. VAP는 먼저 메모리와 현재 장면을 매칭하여 사용자 고유 물체를 grounding하고, 이후 시각적 프롬프트를 통해 VLA 모델에 전달한다. 추가 학습 없이도 기존 VLA 모델이 개인 물체를 정확히 조작할 수 있게 된다.

상세 요약

본 논문은 인간‑로봇 상호작용(HRI) 분야에서 ‘개인 물체’라는 새로운 문제 영역을 제시하고, 이를 해결하기 위한 실용적인 접근법을 제안한다는 점에서 의미가 크다. 기존 VLA 모델은 대규모 데이터셋을 기반으로 사전 학습된 언어‑시각 매핑을 활용하지만, 개인이 소유한 물체는 데이터셋에 포함되지 않거나, 이름이 고유명사 형태로 제공돼 일반화된 의미론적 표현으로 변환하기 어렵다. 이러한 한계를 극복하기 위해 저자들은 두 단계의 파이프라인을 설계하였다. 첫 번째 단계인 ‘grounding’에서는 사용자가 이전에 저장한 메모리(예: 이미지, 3D 포인트 클라우드, 텍스트 설명)와 현재 카메라 프레임을 매칭하여 대상 물체의 위치와 형태를 정확히 파악한다. 여기서 사용된 매칭 알고리즘은 기존의 이미지‑이미지 검색 기법이나 CLIP 기반 임베딩을 활용할 가능성이 높으며, 메모리 업데이트와 지속적인 학습을 통해 시간에 따라 변하는 물체(예: 물이 채워진 컵)의 상태도 반영할 수 있다. 두 번째 단계인 ‘visual prompting’은 grounding 결과를 VLA 모델에 입력하기 전에 시각적 힌트를 추가함으로써 모델이 기존의 언어‑시각 관계를 재해석하도록 유도한다. 구체적으로는 물체 주변에 마스크를 적용하거나, 물체를 강조하는 색상·광원 변형을 가함으로써 모델의 어텐션 맵을 조정한다. 이 방식은 기존 VLA 모델의 파라미터를 전혀 변경하지 않으면서도, 새로운 물체에 대한 인식과 조작 능력을 확장한다는 점에서 비용 효율성이 뛰어나다.

또한, VAP는 ‘zero‑shot’ 성능을 제공한다는 점에서 학계와 산업계 모두에게 큰 관심을 받을 수 있다. 기존 연구들은 새로운 물체를 다루기 위해 추가 데이터 수집·재학습이 필요했으나, VAP는 메모리 기반 grounding만으로 충분히 대응한다. 다만, 메모리의 품질과 양에 크게 의존한다는 한계가 존재한다. 메모리 이미지가 조명 변화, 시점 변화 등에 취약하면 grounding 정확도가 떨어지고, 결국 VLA 모델의 행동 선택에도 오류가 전이될 가능성이 있다. 따라서 향후 연구에서는 메모리 관리 전략(예: 지속적 업데이트, 다중 모달 융합)과 robust grounding 기법을 결합해 시스템의 신뢰성을 높이는 것이 필요하다.

마지막으로, 본 논문은 VLA 모델을 ‘플러그‑인’ 형태로 확장할 수 있는 프레임워크를 제시함으로써, 로봇이 가정이나 사무실 등 개인화된 환경에서 보다 자연스럽게 협업할 수 있는 기반을 마련한다. 향후 연구에서는 VAP를 다른 로봇 행동 계획 모듈(예: 강화학습 기반 정책)과 연계하거나, 사용자 의도 파악을 위한 대화형 인터페이스와 결합해 전반적인 인간‑로봇 상호작용 품질을 한층 끌어올릴 수 있을 것이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...