모바일 GUI 에이전트 평가를 위한 MobiBench: 모듈형 다경로 오프라인 벤치마크

읽는 시간: 3 분
...

📝 Abstract

Mobile GUI Agents-AI agents capable of interacting with mobile applications on behalf of users-have the potential to transform human-computer interaction. However, current evaluation practices for GUI agents face two fundamental limitations. First, they either rely on single-path offline benchmarks or online live benchmarks. However, offline benchmarks using static, single-path annotated dataset unfairly penalize valid alternative actions, and online benchmarks suffer from poor scalability and reproducibility due to the dynamic and unpredictable nature of live evaluation. Second, existing benchmarks treat agents as monolithic black boxes, overlooking the contributions of individual components, which often leads to unfair comparisons or obscures key performance bottlenecks. To address these limitations, we present MobiBench 1 , the first modular and multi-path aware offline benchmarking framework for Mobile GUI Agents that enables high-fidelity, scalable, and reproducible evaluation entirely in offline settings. Our experiments demonstrate that MobiBench achieves 94.72% agreement with human evaluators-on par with carefully engineered online benchmarks-while preserving the scalability and reproducibility of static offline benchmarks. Furthermore, our comprehensive module-level analysis uncovers several key insights, including a systematic evaluation of diverse techniques used in mobile GUI Agents, optimal module configurations across model scales, the inherent limitations of current LFMs, and actionable guidelines for designing more capable and cost-efficient mobile agents.

💡 Analysis

MobiBench는 모바일 GUI 에이전트 평가에 있어 두 가지 주요한 문제점을 해결하려고 합니다. 첫 번째로, 기존의 오프라인 벤치마크는 정적이고 단일 경로의 데이터셋을 사용하여 다양한 행동 패턴을 제대로 평가하지 못하는 한계를 가지고 있습니다. 두 번째로, 온라인 라이브 벤치마크는 동적인 환경에서 이루어져 확장성과 재현성이 낮은 문제점이 있습니다. MobiBench는 이러한 문제점을 해결하기 위해 모듈형 다경로 오프라인 벤치마킹 프레임워크를 제시합니다.

MobiBench의 핵심 특징 중 하나는 각 구성 요소에 대한 세부적인 평가입니다. 기존 방법들은 에이전트를 단일화된 검은 상자로 취급하여 개별 구성 요소들의 성능을 무시하는 반면, MobiBench는 모듈 수준의 분석을 통해 각 구성 요소의 기여도와 한계를 명확히 파악할 수 있습니다. 이러한 접근법은 에이전트의 성능 향상과 최적화에 중요한 정보를 제공합니다.

실험 결과, MobiBench는 인간 평가자와 94.72%의 일치율을 보여주며, 온라인 벤치마크와 맞먹는 수준의 정확성을 달성하면서도 오프라인 환경에서의 확장성과 재현성을 유지합니다. 이는 MobiBench가 모바일 GUI 에이전트 평가에 있어 중요한 도구로 자리매김할 가능성이 있음을 시사합니다.

📄 Content

제목: 모바일 GUI 에이전트 평가를 위한 모듈형 다경로 오프라인 벤치마크 MobiBench

요약: 사용자를 대신하여 모바일 애플리케이션과 상호작용할 수 있는 Mobile GUI Agents는 인간-컴퓨터 상호작용을 혁신할 잠재력을 가지고 있습니다. 그러나 현재의 GUI 에이전트 평가 방법은 두 가지 근본적인 한계를 가지고 있습니다. 첫째, 기존 방법들은 단일 경로 오프라인 벤치마크나 온라인 라이브 벤치마크에 의존하고 있습니다. 그러나 정적이고 단일 경로의 주석화된 데이터셋을 사용하는 오프라인 벤치마크는 유효한 대체 행동들을 부당하게 평가하며, 온라인 벤치마크는 라이브 평가의 동적이고 예측 불가능한 성격 때문에 확장성과 재현성이 떨어집니다. 둘째, 기존 벤치마크들은 에이전트를 단일화된 검은 상자로 취급하여 개별 구성 요소들의 기여도를 무시하고 있어 공정하지 않은 비교나 핵심 성능 병목 현상의 숨김을 초래합니다. 이러한 한계점을 해결하기 위해, 우리는 모바일 GUI 에이전트를 위한 첫 번째 모듈형 다경로 오프라인 벤치마킹 프레임워크 MobiBench를 제시합니다. 이는 완벽한 재현성과 확장성을 갖춘 오프라인 환경에서 고정밀 평가를 가능하게 합니다. 실험 결과, MobiBench는 인간 평가자와 94.72%의 일치율을 보여주며, 신중히 설계된 온라인 벤치마크와 맞먹는 성능을 제공합니다. 또한, 우리의 포괄적인 모듈 수준 분석은 다양한 기술의 체계적 평가, 모델 크기에 따른 최적 구성, 현재 LFMs의 내재한 한계, 그리고 더 능력 있고 비용 효율적인 모바일 에이전트 설계를 위한 실질적인 가이드라인을 제공합니다.

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키