모바일 GUI 에이전트 데이터 마이닝을 위한 다중 에이전트 MCTS 강화
초록
M$^{2}$‑Miner는 모바일 GUI 에이전트 학습에 필요한 의도‑궤적 데이터를 저비용으로 자동 생성하기 위해 몬테카를로 트리 탐색(MCTS)에 다중 에이전트 협업 프레임워크를 결합한 시스템이다. InferAgent가 의도에 맞는 행동을 예측하고, OrchestraAgent가 중복 행동을 통합·우선순위화하며, JudgeAgent가 과정 기반 보상을 제공한다. 또한 의도 재활용 전략과 모델‑인‑루프 진행 학습을 통해 데이터 다양성과 성공률을 크게 향상시킨다. 실험 결과, M$^{2}$‑Miner가 만든 데이터로 파인튜닝된 GUI 에이전트는 기존 벤치마크에서 최첨단 성능을 달성한다.
상세 분석
본 논문은 모바일 GUI 에이전트 학습에 필수적인 고품질 의도‑궤적 쌍을 대규모로 확보하는 문제를 MCTS 기반 자동 마이닝으로 해결하고자 한다. 기존의 수작업 라벨링은 비용이 많이 들고, 자동화된 기존 방법은 탐색 효율이 낮으며, 수집된 데이터는 단일 성공 경로만을 기록해 다양성이 부족했다. M$^{2}$‑Miner는 이러한 한계를 세 가지 핵심 설계로 극복한다. 첫째, 의도‑궤적 트리를 노드(스크린샷, 메타데이터, Q값, 방문 횟수, 상태)와 엣지(행동 전이)로 정의함으로써 탐색 과정 전체를 기록한다. 둘째, 협업 다중 에이전트 프레임워크를 도입한다. InferAgent는 다중 MLLM을 활용해 K개의 후보 행동을 생성하고, 이전에 시도한 행동을 프롬프트에 포함시켜 중복을 최소화한다. OrchestraAgent는 생성된 후보 행동을 동일 행동군으로 묶고, 목표 의도 달성 가능성을 기반으로 순위를 매겨 가장 유망한 행동을 먼저 확장하도록 한다. 이는 전통적인 무작위 확장 단계에서 발생하는 탐색 비용을 기하급수적으로 감소시킨다. 셋째, JudgeAgent는 전통적인 시뮬레이션 기반 보상 대신, 현재 노드의 스크린샷을 입력으로 성공·실패·중간 상태를 판단하고, 중간 노드에 대해서는 “유효/무효” 이진 보상을 예측한다. 이 과정 기반 보상은 시뮬레이션을 수행하지 않아도 되므로 계산량이 크게 절감된다.
또한 의도 재활용 전략은 완성된 트리의 비주요 경로를 재평가하여 새로운 의도를 자동 생성한다. 트리 내 모든 경로에 대해 전용 필터를 적용하고, MLLM을 이용해 해당 경로에 맞는 자연어 의도를 생성한 뒤, JudgeAgent가 일치 여부를 검증한다. 이렇게 하면 하나의 초기 의도에서 다수의 파생 의도가 도출되어 데이터 풍부도가 크게 증가한다.
마지막으로 진행형 모델‑인‑루프 학습은 현재 마이닝된 데이터로 에이전트를 파인튜닝하고, 업데이트된 모델을 다시 마이닝 파이프라인에 투입해 탐색 효율과 성공률을 순환적으로 향상시킨다. 실험에서는 작업 길이 9에서 64배 가량의 탐색 효율 향상과 함께 성공률이 크게 상승했으며, t‑SNE 시각화에서 재활용된 의도가 기존 방법보다 더 넓은 분포를 형성함을 확인했다.
전체적으로 M$^{2}$‑Miner는 MCTS의 탐색 구조를 유지하면서, 다중 에이전트 협업, 의도 재활용, 진행형 학습이라는 세 가지 혁신을 통해 데이터 비용을 낮추고 품질·다양성을 동시에 확보한다는 점에서 모바일 GUI 에이전트 연구에 중요한 전환점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기