모바일 GUI 에이전트 메모리 평가를 위한 종합 벤치마크 MemGUI‑Bench
초록
MemGUI‑Bench는 모바일 GUI 에이전트의 단기·장기 메모리 능력을 체계적으로 측정하기 위해 128개의 메모리‑집중 과제를 26개 앱에 걸쳐 설계하고, pass@k와 단계적 LLM‑as‑Judge 평가 파이프라인을 도입한 최초의 메모리‑중심 벤치마크이다. 11개 최신 에이전트를 평가한 결과, 모든 모델이 심각한 메모리 결함을 보이며 5가지 실패 유형과 5가지 설계 시사점을 도출하였다.
상세 분석
본 논문은 모바일 GUI 에이전트가 인간과 유사한 두 종류의 기억, 즉 작업 수행 중에 필요한 정보를 일시적으로 보관하는 단기 기억과 여러 세션에 걸쳐 경험을 축적해 재사용하는 장기 기억을 모두 구현해야 한다는 전제에서 출발한다. 이를 검증하기 위해 저자들은 먼저 기존 벤치마크가 메모리 관련 과제가 전체의 5.2‑11.8%에 불과하고, 교차‑세션 학습을 평가하지 못한다는 문제점을 정량화하였다.
메모리 분류 체계에서는 11개의 에이전트를 5가지 단기 기억 아키텍처(메모리 에이전트, 액션‑생각 패턴, 다중‑턴 컨텍스트, 규칙 기반 집계, 히스토리 없음)와 2가지 장기 기억 전략(성공 기반 학습, 실패 기반 학습)으로 구분한다. 이러한 분류는 각 모델이 어느 정도의 기억 메커니즘을 내장하고 있는지, 그리고 그 구현 방식이 실제 사용 시 어떤 한계에 부딪히는지를 명확히 드러낸다.
벤치마크 설계는 128개의 과제를 3가지 난이도와 4가지 앱 복합성을 고려해 균형 있게 배치했으며, 전체 과제의 89.8%가 정보의 시간적·공간적 유지·전이를 요구한다. 특히 64개의 ‘거울 과제’ 쌍을 만들어 동일한 앱 조합과 인지 부하를 갖지만 세부 요구사항이 달라, 에이전트가 이전 시도에서 얻은 지식을 새로운 과제에 전이할 수 있는지를 pass@k 프로토콜로 측정한다.
평가 파이프라인인 MemGUI‑Eval은 ‘Progressive Scrutiny’라는 3단계 심사 방식을 도입한다. 1단계 ‘Triage Judge’는 최소 증거(목표 설명, 액션 로그, 최종 스크린샷)만으로 명확히 성공한 경우를 빠르게 판정해 비용을 절감한다. 2단계에서는 ‘Step Descriptor’가 각 단계의 시각·텍스트 정보를 자동 생성하고, ‘Semantic Judge’가 이를 종합해 정보 유지율(IRR) 등을 계산한다. 3단계 ‘Visual Judge’는 필요 시 지정된 히스토리 스크린샷만을 제공받아 최종 판단을 내린다. 이 구조는 기존 LLM‑as‑Judge 방식이 전체 트래젝터리를 모두 처리해야 하는 비효율성을 크게 개선한다.
실험 결과는 11개 에이전트 모두 단기 기억 지표(IRR)에서 평균 30% 이하의 성능을 보였으며, 장기 기억(pass@k SR)에서도 4‑10배 수준의 격차가 발견되었다. 저자들은 실패 모드를 ‘정보 누락’, ‘시점 오류’, ‘컨텍스트 혼동’, ‘학습 전이 부재’, ‘자원 과다 사용’ 등 5가지로 정의하고, 각각에 대한 설계 권고(예: 명시적 메모리 슬롯 도입, 메타‑학습 기반 장기 기억 강화, 비용‑효율적인 기억 관리 정책 등)를 제시한다.
전반적으로 MemGUI‑Bench는 모바일 GUI 에이전트의 메모리 능력을 정량화하고, 향후 모델 설계와 평가에 표준을 제공하는 중요한 기반을 마련한다는 점에서 학계·산업 모두에 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기