실시간 멀티모달 LLM과 툴 호출을 활용한 현장 로봇 대화 시스템 레시피
초록
본 논문은 실시간 멀티모달 대형 언어 모델(LLM)과 소수의 툴 인터페이스를 결합해, 로봇이 대화 중에 시선 제어와 능동적 시각 정보를 획득하도록 하는 최소·효율적인 시스템 구조를 제시한다. 여섯 가지 가정 시나리오와 네 가지 변형을 통해 도구 호출 정확도와 사용자 만족도를 평가했으며, 실시간 LLM과 툴 사용이 현장 로봇 대화에 유망함을 입증한다.
상세 분석
이 연구는 ‘실시간 멀티모달 LLM + 툴 호출’이라는 두 축을 중심으로 현장 로봇 대화 시스템을 설계한다는 점에서 혁신적이다. 먼저, OpenAI Realtime API와 Gemini Live와 같은 최신 실시간 멀티모달 LLM을 대화 관리자로 활용함으로써, 연속적인 오디오·비디오 스트림을 동시에 처리하고, 발화 중단·턴 교체와 같은 인간‑로봇 상호작용의 미세한 타이밍을 자연스럽게 지원한다. 기존의 턴 기반 모델이 정적인 이미지나 사전 녹음된 음성을 입력으로 받는 것과 달리, 실시간 LLM은 프레임 단위로 시각 정보를 받아 상황 변화에 즉시 대응한다는 장점이 있다.
하지만 실시간 LLM만으로는 ‘어디를 볼지’, ‘언제 시각 정보를 추가로 요청할지’와 같은 행동 결정을 내리기 어렵다. 이를 보완하기 위해 논문은 다섯 가지 툴(look_at_person, look_at_object, look_around, look_for, use_vision)을 정의하고, 각 툴을 JSON‑스키마 형태의 함수 호출로 외부에 노출한다. LLM은 대화 흐름과 현재 시각적 컨텍스트를 기반으로 툴 호출 여부와 파라미터를 자동 생성한다. 이 설계는 전통적인 규칙 기반 시선 제어 로직을 LLM의 사전 학습된 ‘사회적 상호작용 정책’에 위임함으로써, 개발 비용을 크게 절감하고 다양한 상황에 대한 일반화를 기대할 수 있게 한다.
툴 구현 측면에서는 경량화된 사람 트래커(YOLO‑pose)와 객체 마스크 추정기(SAM)를 로컬에서 실행해 프레임당 20 Hz 이상의 속도를 유지한다. look_around는 로봇이 사전에 정의된 시점들을 순회하면서 이미지·포즈 쌍을 저장하고, look_for는 저장된 뷰를 VLM(vision‑language model)으로 질의해 가장 관련성 높은 프레임을 선택한다. 이때 VLM 스코어링을 병렬화해 지연을 최소화한다는 점은 실시간 요구사항을 충족시키는 핵심 기술이다.
평가에서는 ‘자세 교정’, ‘화이트보드 튜터링’, ‘램프 배치’, ‘식물 진단’, ‘의상 체크’, ‘분실물 찾기’ 등 6개의 가정 시나리오를 설계하고, 4가지 시스템 변형(LLM 백엔드 교체, 툴 사용 유무, 메모리 맵 활용 여부 등)을 비교한다. 인간 어노테이터가 정의한 ‘다음에 로봇이 해야 할 행동’과 LLM이 선택한 툴 호출을 turn‑level로 매칭해 정확도를 측정했으며, 주관적 설문을 통해 유창성, 사회적 존재감, 상황 적합성을 평가했다. 결과는 실시간 LLM과 툴 호출을 결합한 변형이 가장 높은 도구 선택 정확도와 사용자 만족도를 보였으며, 특히 look_for와 use_vision을 활용한 ‘시야 외 탐색’이 복합적인 상황에서 큰 효과를 나타냈다.
한계점으로는 (1) 현재 구현이 특정 로봇 플랫폼(egocentric 카메라 + 6‑DoF 가스)과 제한된 하드웨어 사양에 종속적이며, 다른 센서(깊이, 라이다 등)와의 통합이 아직 미비하고, (2) 툴 호출이 LLM의 내부 의도와 완전히 일치하지 않을 경우 오버‑콜 혹은 언더‑콜이 발생할 가능성이 있다. 또한 VLM 기반의 look_for는 질의가 모호하거나 이미지가 부족할 때 성능이 급격히 저하될 수 있다. 향후 연구에서는 툴 호출 정책을 강화 학습으로 미세조정하고, 멀티‑모달 피드백 루프(예: 촉각·음향)와의 연계를 통해 보다 견고한 상황 인지를 목표로 해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기