바이마니벤치: 멀티모달 대형 언어 모델의 양손 협동 능력 평가를 위한 계층적 벤치마크

바이마니벤치: 멀티모달 대형 언어 모델의 양손 협동 능력 평가를 위한 계층적 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BiManiBench는 양팔 로봇 조작을 위한 세 단계(공간 인식, 고수준 계획, 저수준 제어) 평가 체계를 제시한다. 30여 개 최신 MLLM을 실험한 결과, 모델들은 고수준 논리 추론은 우수하지만 양팔의 공간 할당과 연속 제어에서 빈번히 오류를 범한다는 점을 밝혀냈다.

상세 분석

본 논문은 기존 단일팔 로봇 벤치마크가 양팔 협동의 핵심 요소인 시공간 동기화와 상호 충돌 회피를 간과하고 있음을 지적한다. 이를 보완하기 위해 제안된 BiManiBench는 ① Dual‑Arm Spatial Reasoning, ② High‑Level Action Planning, ③ Low‑Level End‑Effector Control의 세 계층으로 구성된다. 첫 번째 계층은 물체의 x‑좌표를 기반으로 왼쪽·오른쪽 팔을 할당하는 작업으로, 단순 정확도 대신 Gaussian‑Weighted Spatial Score를 도입해 경계 근처의 불확실성을 완화한다. 두 번째 계층은 복합적인 논리 흐름을 요구하는 장기 과제(예: 독립 병렬, 순차 협동, 동시 협동)를 JSON 형태의 행동 시퀀스로 출력하도록 설계했으며, Action Chunking과 Task‑Adaptive Execution Truncation 메커니즘을 통해 계획‑실행 간 시차를 최소화한다. 세 번째 계층은 16‑DoF 연속 제어(양팔 각각 7‑DoF 위치·방향 + 1‑DoF 그리퍼) 를 직접 출력하도록 하여, 기존의 프리미티브 기반 접근법과 차별화한다.

실험에서는 GPT‑5, Gemini‑2.5‑Pro, Claude‑4‑Sonnet 등 최신 폐쇄형 모델과 InternVL‑3, Qwen2.5‑VL 등 오픈소스 모델을 포함한 30여 종을 평가하였다. 결과는 크게 세 가지 패턴으로 요약된다. 첫째, 공간 인식 단계에서 모델들은 전반적으로 “왼‑오른 팔 할당”을 잘 수행하지만, 경계 근처에서의 hallucination이 빈번해 실제 실행 시 팔 충돌이나 도달 불가능 상황을 초래한다. 둘째, 고수준 계획에서는 복합적인 논리 흐름을 정확히 서술하지만, 이를 저수준 제어로 전이할 때 연속적인 궤적 생성이 부정확해 동시 협동 작업에서 시간 동기화 오류가 발생한다. 셋째, 모델 규모와 입력 채널 수가 제한된 경우, 다중 시점 이미지(첫인칭·제3인칭)를 동시에 처리하면 정보 과부하가 발생해 성능이 오히려 저하된다. 즉, 대형 모델은 멀티뷰를 활용해 복잡한 장면을 해석하지만, 소형 모델은 시각적 노이즈에 취약해 단일 뷰가 더 나은 결과를 보인다.

이러한 분석을 통해 저자들은 현재 MLLM 기반 로봇 시스템이 “논리적 사고”와 “시각적 인식”에서는 충분히 경쟁력을 갖추었지만, “양팔 동시 제어”와 “상호 충돌 회피”라는 핵심 물리적 제약을 내재화하지 못하고 있음을 강조한다. 향후 연구는 (1) 양팔의 기구학적 제약을 모델 내부에 명시적으로 통합하는 방법, (2) 충돌 회피와 시간 동기화를 전용 모듈(예: Graph Neural Network 기반 협동 플래너)로 보강하는 전략, (3) 제한된 토큰 용량에서 효율적인 멀티모달 피드백을 설계하는 경량화 기법에 집중해야 한다는 방향성을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기