ShowUI파이: 흐름 기반 생성 모델을 활용한 GUI 자동화 손
📝 원문 정보
- Title: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
- ArXiv ID: 2512.24965
- 발행일: 2025-12-31
- 저자: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou
📝 초록 (Abstract)
ShowUI파이는 연속적인 드래그 동작을 필요로 하는 GUI 자동화를 위해 설계된 경량 흐름 기반 생성 모델이다. 화면에 실시간으로 제공되는 시각적 관찰을 입력으로 받아, 주어진 질의에 대응하는 연속적인 커서 궤적을 효율적으로 생성한다. 본 논문에서는 PowerPoint 텍스트 박스 대각선·수평 리사이즈, 회전 캡차 해결, Premiere 영상 클립에 효과 적용, 캔버스에 손글씨 쓰기, OS 데스크톱에서 파일을 폴더로 정렬하는 등 다양한 작업을 실험하였다. 드래그는 클릭 후 커서를 지속적으로 움직이는 연속 상호작용으로 정의한다. ShowUI파이는 이러한 복합적인 작업을 스트리밍 비주얼 관찰과 결합해 높은 성공률(26.98 % ± 4.8)로 수행한다.💡 논문 핵심 해설 (Deep Analysis)

구조적으로 ShowUI파이는 (1) 시각 인코더, (2) 질의 인코더, (3) 조건부 흐름 네트워크로 구성된다. 시각 인코더는 CNN 기반으로 현재 화면의 특징 맵을 추출하고, 질의 인코더는 자연어 혹은 구조화된 명령을 임베딩한다. 두 임베딩은 결합되어 흐름 네트워크에 전달되며, 여기서 연속적인 시간 변수 t∈
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.