멀티모달 도구 사용 벤치마크 M3
📝 Abstract
We present M 3 -Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similaritydriven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similaritybucketed Hungarian matching to obtain auditable one-toone correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 27 servers with 232 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-theart Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs.
💡 Analysis
M 3‑Bench는 현재 멀티모달 대형 언어 모델(MLLM)이 실제 업무 환경에서 도구를 활용하는 능력을 정량화하고 진단하기 위한 중요한 시도이다. 기존 벤치마크들은 주로 단일 이미지‑텍스트 질문응답이나 단일 단계 도구 호출에 초점을 맞추어 왔으며, 복합적인 워크플로우에서 발생하는 “도구 간 의존성”이나 “중간 결과의 지속성” 같은 문제를 충분히 반영하지 못했다. 본 논문은 이러한 한계를 극복하기 위해 모델 컨텍스트 프로토콜(MCP)이라는 프레임워크를 도입한다. MCP는 모델이 외부 도구와 상호작용할 때, 각 호출의 입력·출력을 명시적으로 기록하고, 이후 단계에서 이를 재활용하거나 수정할 수 있도록 하는 규격이다. 이를 통해 실제 기업용 자동화 파이프라인과 유사한 다중 홉·다중 스레드 시나리오를 구현한다.
핵심 기술로는 “유사도 기반 정렬(similarity‑driven alignment)”이 있다. 각 도구 호출은 고유한 서명(signature)을 갖는데, 이는 호출 이름, 파라미터, 반환값 등을 문장 인코더(BERT‑like)로 임베딩한 벡터이다. 그런 다음 전체 호출 시퀀스를 유사도 버킷에 할당하고, 헝가리안 매칭 알고리즘을 적용해 예측된 호출과 정답 호출 사이의 일대일 매핑을 만든다. 이 과정은 인간이 직접 매핑을 검증할 필요 없이 자동화된 감사(audit) 가능성을 제공한다는 점에서 혁신적이다. 매핑이 확정되면 두 종류의 메트릭을 산출한다. 첫 번째는 “의미 충실도(semantic fidelity)”로, 모델이 생성한 파라미터가 정답 파라미터와 얼마나 유사한지를 측정한다. 두 번째는 “워크플로우 일관성(workflow consistency)”으로, 호출 순서와 의존 관계가 원본 설계와 일치하는지를 평가한다. 이러한 이중 메트릭 체계는 모델이 단순히 정답을 맞추는 것이 아니라, 전체 프로세스를 논리적으로 유지하면서 작업을 수행하는지를 파악할 수 있게 한다.
데이터 측면에서는 27대의 서버와 232개의 다양한 도구(예: 이미지 분석, OCR, 데이터베이스 질의, 파일 변환 등)를 포함한 대규모 워크플로우 컬렉션을 구축하였다. 각 워크플로우는 인간 검증자를 통해 검증된 “실행자‑판정자 파이프라인”을 거쳐 표준화된 트래젝터리로 정제된다. 또한, 네 개의 사전 학습된 LLM을 앙상블하여 최종 과제 완료도(Task Completion)와 정보 정합성(grounding)을 보조적으로 평가한다. 이는 인간 판정자의 비용을 절감하면서도 신뢰성 있는 평가를 가능하게 한다.
실험 결과, 최신 멀티모달 LLM(예: GPT‑4V, LLaVA‑1.5, Gemini‑Vision 등)들은 전반적인 작업 성공률에서는 경쟁력을 보이지만, “인수 충실도(argument fidelity)”와 “구조 일관성(structure consistency)”에서 현저히 낮은 점수를 기록한다. 즉, 모델이 올바른 도구를 선택하고 호출은 할지라도, 파라미터 값이 미세하게 틀리거나 호출 순서가 뒤바뀌는 문제가 빈번히 발생한다. 이는 이미지와 텍스트를 동시에 이해하더라도, 도구 그래프 상에서의 논리적 추론이 아직 미흡함을 의미한다. 따라서 향후 연구는 (1) 도구 호출 시점의 컨텍스트를 보다 풍부하게 모델에 제공하는 방법, (2) 그래프 기반 추론 엔진과 멀티모달 인코더를 통합하는 아키텍처, (3) 지속적인 중간 결과 저장·재활용 메커니즘을 강화하는 방향으로 진행될 필요가 있다.
요약하면, M 3‑Bench는 멀티모달 LLM이 실제 복합 업무에서 도구를 활용하는 능력을 체계적으로 측정할 수 있는 최초의 표준이며, 현재 모델들의 한계를 명확히 드러내어 향후 연구 로드맵을 제시한다.
📄 Content
본 논문에서는 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 하에서 멀티모달 도구 사용을 평가하기 위한 최초의 벤치마크인 M 3‑Bench를 제시한다. 이 벤치마크는 시각적 정합(visual grounding)과 텍스트 추론(textual reasoning), 도구 간 상호 의존성(cross‑tool dependencies), 그리고 단계 간 중간 자원(persistence of intermediate resources)의 지속성을 요구하는 현실적인 다중 홉·다중 스레드 워크플로우를 목표로 설계되었다. 우리는 각 도구 호출을 직렬화하고, 호출 서명을(sentence encoder)를 이용해 임베딩한 뒤, 유사도 기반 버킷(bucketed) 헝가리안 매칭(similarity‑bucketed Hungarian matching)을 적용하여 감사 가능한 일대일 대응(one‑to‑one correspondences)을 도출하는 유사도‑구동 정렬(similarity‑driven alignment) 방식을 도입한다. 이 정렬 위에 의미적 충실도(semantic fidelity)와 워크플로우 일관성(workflow consistency)을 분리해 해석 가능한 메트릭을 보고한다. 벤치마크는 27개의 서버와 232개의 도구를 포괄하며, 실행자(Executor)와 판정자(Judge) 파이프라인을 통해 인간 검증을 거친 표준화된 트래젝터리를 제공한다; 부가적으로 네 개의 대형 언어 모델(LLM) 판정자 앙상블이 최종 과제 완료(Task Completion)와 정보 정합(information grounding)을 보고한다. 최신 멀티모달 대형 언어 모델(MLLM)의 평가 결과, 특히 인수 충실도(argument fidelity)와 구조 일관성(structure consistency) 측면에서 멀티모달 MCP 도구 사용에 지속적인 격차가 존재함을 확인했으며, 이미지, 텍스트, 도구 그래프를 공동으로 추론하는 방법론의 필요성을 강조한다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.