실전 GUI 자동화를 위한 StepGUI와 GUI MCP
초록
StepGUI는 캘리브레이션된 단계 보상 시스템(CSRS)을 활용해 저비용 고품질 학습 데이터를 자동 생성하고, 4B·8B 두 규모의 모델을 훈련시켜 AndroidWorld·OSWorld·ScreenShot‑Pro 등 주요 벤치마크에서 최고 수준의 성능을 달성한다. 또한 GUI‑MCP라는 계층형 프로토콜을 제안해 다양한 디바이스 간 표준 인터페이스와 온‑디바이스 프라이버시 보호를 동시에 구현한다. 마지막으로 실제 모바일 사용 패턴을 기반으로 만든 AndroidDaily 벤치마크를 통해 실생활 시나리오에서의 모델 실효성을 평가한다.
상세 분석
본 논문은 GUI 자동화라는 고난이도 문제를 해결하기 위해 세 가지 핵심 혁신을 제시한다. 첫째, Calibrated Step Reward System(CSRS)은 모델이 자체 생성한 다단계 인터랙션 궤적을 외부 검증 스크립트 혹은 인간 라벨링과 연계해 ‘trajectory‑level’ 보상을 부여함으로써, 전통적인 step‑level 라벨링이 갖는 주관성·비용 문제를 크게 완화한다. CSRS는 90 % 이상의 라벨 정확도를 유지하면서 기존 방식 대비 10~100배 저렴한 비용을 달성한다는 실험적 증거를 제시한다. 둘째, 데이터 파이프라인은 ‘mid‑train’ 단계와 ‘cold‑start’ 단계로 구분된다. mid‑train에서는 1.9 M 일반 텍스트·멀티모달, 2.0 M 지식 데이터, 2.7 M grounding 데이터 등 대규모 일반 지식과 시각적 이해를 유지하면서, 170 K 액션 정렬 데이터와 4 M 다중‑스텝 궤적 데이터를 통해 GUI 특화 능력을 사전 학습한다. 이후 cold‑start 단계에서는 실행 오류 분석을 통해 도출된 결핍 지식을 VQA 형태로 재구성해 864 K 샘플을 추가하고, 고품질 궤적 404 K 샘플과 일반 멀티모달·grounding 데이터를 보완한다. 이 두 단계는 모델이 광범위한 세계 지식을 보유하면서도 GUI 특화 오류를 효율적으로 교정하도록 설계되었다. 셋째, GUI‑MCP는 기존 Model Context Protocol을 GUI 환경에 맞게 확장한 프로토콜이다. 저수준 원자 연산(클릭·스와이프·텍스트 입력)과 고수준 작업 위임을 계층적으로 분리함으로써, 메인 LLM은 전략적 플래닝에 집중하고, 로컬에 배치된 StepGUI‑4B·8B가 실제 UI 조작을 담당한다. 특히 ‘프라이버시 모드’에서는 스크린샷·민감 상태를 디바이스 내부에 머무르게 하고, 의미 요약만 외부 LLM에 전달해 데이터 유출 위험을 최소화한다. 이러한 설계는 온‑디바이스 실행 가능성을 확보하면서도 클라우드 기반 고성능 추론을 활용할 수 있게 한다. 실험 결과, StepGUI‑8B는 AndroidWorld 80.2 %, OSWorld 48.5 %, ScreenShot‑Pro 62.6 %를 기록했으며, AndroidDaily 정적 평가에서 89.91 %, 엔드‑투‑엔드에서는 52.50 %의 성공률을 보였다. 이는 기존 오픈소스·상용 에이전트들을 크게 앞서는 수치이며, 4B 모델도 소비자 수준 하드웨어에서 실시간 실행이 가능함을 증명한다. 전체적으로 논문은 데이터 효율성, 모델 성능, 표준화·프라이버시 보호라는 세 축을 동시에 만족시키는 실용적인 GUI 에이전트 프레임워크를 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기