ShowUI파이: 흐름 기반 생성 모델을 활용한 GUI 자동화 손

2025년 12월 31일

읽는 시간: 2 분

...

#Computer Vision #Computer Science #Model

📝 원문 정보

Title: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
ArXiv ID: 2512.24965
발행일: 2025-12-31
저자: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

📝 초록 (Abstract)

ShowUI파이는 연속적인 드래그 동작을 필요로 하는 GUI 자동화를 위해 설계된 경량 흐름 기반 생성 모델이다. 화면에 실시간으로 제공되는 시각적 관찰을 입력으로 받아, 주어진 질의에 대응하는 연속적인 커서 궤적을 효율적으로 생성한다. 본 논문에서는 PowerPoint 텍스트 박스 대각선·수평 리사이즈, 회전 캡차 해결, Premiere 영상 클립에 효과 적용, 캔버스에 손글씨 쓰기, OS 데스크톱에서 파일을 폴더로 정렬하는 등 다양한 작업을 실험하였다. 드래그는 클릭 후 커서를 지속적으로 움직이는 연속 상호작용으로 정의한다. ShowUI파이는 이러한 복합적인 작업을 스트리밍 비주얼 관찰과 결합해 높은 성공률(26.98 % ± 4.8)로 수행한다.

💡 논문 핵심 해설 (Deep Analysis)

ShowUI파이는 기존 GUI 자동화 연구가 주로 이산적인 클릭·키 입력에 초점을 맞춘 것과 달리, 연속적인 드래그 동작을 모델링하는 데 중점을 둔 점이 가장 큰 차별점이다. 이를 위해 저자들은 “ScreenDrag”라는 새로운 데이터셋을 구축했으며, 여기에는 사용자가 마우스를 누른 채로 움직이는 궤적과 해당 시점의 화면 이미지가 쌍으로 제공된다. 흐름 기반 생성 모델은 정상적인 확률 흐름(continuous normalizing flow, CNF)을 활용해 시각적 관찰을 조건부 입력으로 받아, 시간에 따라 변하는 확률 밀도를 학습한다. 이렇게 하면 모델이 현재 화면 상태를 실시간으로 파악하고, 목표 작업에 맞는 최적의 커서 경로를 샘플링할 수 있다.

구조적으로 ShowUI파이는 (1) 시각 인코더, (2) 질의 인코더, (3) 조건부 흐름 네트워크로 구성된다. 시각 인코더는 CNN 기반으로 현재 화면의 특징 맵을 추출하고, 질의 인코더는 자연어 혹은 구조화된 명령을 임베딩한다. 두 임베딩은 결합되어 흐름 네트워크에 전달되며, 여기서 연속적인 시간 변수 t∈

📄 논문 본문 발췌 (Translation)

ShowUI파이: 26.98 (± 4.8) (a) PowerPoint: 텍스트 박스를 대각선으로 크기 조정한다. (b) Captcha: 회전 캡차를 해결한다. (c) Premiere: 클립에 효과를 적용한다. (d) Handwriting: 캔버스에 손글씨를 쓴다. (e) PowerPoint: 텍스트 박스를 수평으로 크기 조정한다. (f) OS Desktop: 파일을 폴더로 정렬한다.

드래그 = 누른 상태에서 커서를 연속적인 궤적을 따라 이동시키는 동작을 의미한다.
그림 1. 왼쪽: ScreenDrag 데이터 도메인의 시각화. 오른쪽: ShowUI파이는 드래그와 같이 실시간 관찰이 필요한 GUI 자동화를 처리하기 위한 경량 흐름 기반 생성 모델이다. 질의가 주어지면 ShowUI파이는 스트리밍 시각 관찰으로부터 해당 연속 궤적을 효율적으로 생성한다.

📄 ArXiv 원문 PDF 보기