행동과 언어를 결합한 목표 추론 BALI: 인간‑로봇 협업의 새로운 패러다임
BALI는 인간의 행동과 자연어 선호도를 동시에 활용해 목표를 추론하고, 정보 이득이 중단 비용을 초과할 때만 질문을 제시한다. 재귀적 계획 트리를 이용해 지원 행동을 선택하며, 요리 협업 실험에서 기존 방법보다 목표 예측이 안정적이고 오류가 크게 감소한다.
초록
BALI는 인간의 행동과 자연어 선호도를 동시에 활용해 목표를 추론하고, 정보 이득이 중단 비용을 초과할 때만 질문을 제시한다. 재귀적 계획 트리를 이용해 지원 행동을 선택하며, 요리 협업 실험에서 기존 방법보다 목표 예측이 안정적이고 오류가 크게 감소한다.
상세 요약
본 논문은 인간‑로봇 협업에서 목표 추론의 불확실성을 최소화하기 위해 행동과 언어 정보를 양방향으로 통합하는 BALI(Bidirectional Action‑Language Inference) 프레임워크를 제안한다. 기존 연구는 목표 집합을 미리 정의하거나 행동만을 이용하거나, 명시적 언어 지시만을 의존하는데, 이러한 접근은 실제 환경에서 목표가 무한히 다양하고 인간이 목표를 명확히 표현하지 못할 때 취약하다. BALI는 두 가지 핵심 메커니즘을 도입한다. 첫째, 관찰된 인간 행동 시퀀스를 기반으로 재귀적(horizon) 계획 트리를 구성하고, 각 노드에서 가능한 목표 후보들의 사후 확률을 베이지안 업데이트한다. 둘째, 인간이 제공한 자연어 선호도(예: “가능하면 채소를 많이 사용하고 싶어”)를 언어 모델(LM) 기반 임베딩으로 변환해 목표 후보와의 유사도를 계산, 이를 사전 확률에 반영한다. 이렇게 하면 행동과 언어가 서로 보완적으로 작용해 목표 분포가 빠르게 수렴한다.
또한 BALI는 인간에게 질문을 할지 여부를 정량적으로 판단한다. 질문의 기대 정보 이득(EIG)을 정보 이론적 관점에서 계산하고, 인간의 작업 흐름을 방해하는 중단 비용(interruption cost)과 비교한다. EIG가 비용을 초과하면 “어떤 재료를 선호하시나요?”와 같은 명확한 질문을 생성한다. 질문 생성은 사전 학습된 언어 모델을 활용해 문맥에 맞는 질의를 자동으로 구성한다.
지원 행동 선택 단계에서는 현재 목표 분포에 기반해 로봇이 수행할 수 있는 행동 집합을 평가한다. 각 행동은 목표와의 정렬도(alignment score)를 계산하고, 목표 확률 가중 평균을 통해 기대 보상을 추정한다. 로봇은 목표와 가장 높은 정렬도를 보이는 행동을 선택함으로써 인간의 목표 달성을 적극적으로 지원한다.
실험은 협업 요리 시나리오에서 진행되었다. 인간 파트너는 레시피를 자유롭게 변형하거나 새로운 요리를 제시했으며, 로봇은 사전에 해당 목표를 알지 못했다. BALI는 1) 목표 예측 정확도, 2) 목표 분포의 안정성(시간에 따른 변동성), 3) 불필요한 질문 횟수, 4) 최종 작업 성공률 네 가지 지표에서 기존 행동‑전용, 언어‑전용, 고정 목표 집합 기반 방법을 크게 능가했다. 특히 목표가 완전히 새로운 경우에도 BALI는 언어 힌트를 활용해 빠르게 목표 공간을 축소했으며, 질문 횟수는 평균 0.8회로 최소화되었다.
이러한 결과는 BALI가 인간의 암묵적 의도와 명시적 선호를 동시에 고려함으로써, 목표가 무한히 다양하고 불완전하게 표현되는 현실적인 협업 환경에 적합함을 입증한다. 또한 정보 이득 기반 질문 전략은 인간의 작업 흐름을 방해하지 않으면서도 필요한 정보를 효율적으로 획득하는 메커니즘으로, 향후 인간‑로봇 상호작용 설계에 중요한 원칙이 될 수 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...