ShowUI파이: 흐름 기반 생성 모델을 활용한 GUI 자동화 손

읽는 시간: 2 분
...

📝 원문 정보

  • Title: ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands
  • ArXiv ID: 2512.24965
  • 발행일: 2025-12-31
  • 저자: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

📝 초록 (Abstract)

ShowUI파이는 연속적인 드래그 동작을 필요로 하는 GUI 자동화를 위해 설계된 경량 흐름 기반 생성 모델이다. 화면에 실시간으로 제공되는 시각적 관찰을 입력으로 받아, 주어진 질의에 대응하는 연속적인 커서 궤적을 효율적으로 생성한다. 본 논문에서는 PowerPoint 텍스트 박스 대각선·수평 리사이즈, 회전 캡차 해결, Premiere 영상 클립에 효과 적용, 캔버스에 손글씨 쓰기, OS 데스크톱에서 파일을 폴더로 정렬하는 등 다양한 작업을 실험하였다. 드래그는 클릭 후 커서를 지속적으로 움직이는 연속 상호작용으로 정의한다. ShowUI파이는 이러한 복합적인 작업을 스트리밍 비주얼 관찰과 결합해 높은 성공률(26.98 % ± 4.8)로 수행한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
ShowUI파이는 기존 GUI 자동화 연구가 주로 이산적인 클릭·키 입력에 초점을 맞춘 것과 달리, 연속적인 드래그 동작을 모델링하는 데 중점을 둔 점이 가장 큰 차별점이다. 이를 위해 저자들은 “ScreenDrag”라는 새로운 데이터셋을 구축했으며, 여기에는 사용자가 마우스를 누른 채로 움직이는 궤적과 해당 시점의 화면 이미지가 쌍으로 제공된다. 흐름 기반 생성 모델은 정상적인 확률 흐름(continuous normalizing flow, CNF)을 활용해 시각적 관찰을 조건부 입력으로 받아, 시간에 따라 변하는 확률 밀도를 학습한다. 이렇게 하면 모델이 현재 화면 상태를 실시간으로 파악하고, 목표 작업에 맞는 최적의 커서 경로를 샘플링할 수 있다.

구조적으로 ShowUI파이는 (1) 시각 인코더, (2) 질의 인코더, (3) 조건부 흐름 네트워크로 구성된다. 시각 인코더는 CNN 기반으로 현재 화면의 특징 맵을 추출하고, 질의 인코더는 자연어 혹은 구조화된 명령을 임베딩한다. 두 임베딩은 결합되어 흐름 네트워크에 전달되며, 여기서 연속적인 시간 변수 t∈

📄 논문 본문 발췌 (Translation)

ShowUI파이: 26.98 (± 4.8) (a) PowerPoint: 텍스트 박스를 대각선으로 크기 조정한다. (b) Captcha: 회전 캡차를 해결한다. (c) Premiere: 클립에 효과를 적용한다. (d) Handwriting: 캔버스에 손글씨를 쓴다. (e) PowerPoint: 텍스트 박스를 수평으로 크기 조정한다. (f) OS Desktop: 파일을 폴더로 정렬한다.

드래그 = 누른 상태에서 커서를 연속적인 궤적을 따라 이동시키는 동작을 의미한다.
그림 1. 왼쪽: ScreenDrag 데이터 도메인의 시각화. 오른쪽: ShowUI파이는 드래그와 같이 실시간 관찰이 필요한 GUI 자동화를 처리하기 위한 경량 흐름 기반 생성 모델이다. 질의가 주어지면 ShowUI파이는 스트리밍 시각 관찰으로부터 해당 연속 궤적을 효율적으로 생성한다.

📸 추가 이미지 갤러리

01_Q1Report_after.png 01_Q1Report_before.png 01_Q1Report_mid.png 3D_float_design_slide_1_Title_TextBox_0_20251009222030_after.png 3D_float_design_slide_1_Title_TextBox_0_20251009222030_before.png 3D_float_design_slide_1_Title_TextBox_0_20251009222030_mid.png cad.png captcha_trajectory.png case0_cannot_rotate.png case1_intent.png case2_safety.png case3_semantic.png case4_primitive.png case5_precision.png case6_dialogue.png case7_termination.png closed_loop_mapping_powerpoint_step_curr.png closed_loop_mapping_powerpoint_step_prefix.png closed_loop_mapping_powerpoint_step_prev.png creative.png dev.png frame_1_idx_0000.png frame_2_idx_0010.png frame_3_idx_0020.png frame_4_idx_0003.png frame_8_idx_0007.png handwriting_trajectory.png hresize_clean_Cityscape_photo_calendar_slide_12_Title_TextBox_0_20250514122259_after.png hresize_clean_Cityscape_photo_calendar_slide_12_Title_TextBox_0_20250514122259_before.png hresize_clean_Cityscape_photo_calendar_slide_12_Title_TextBox_0_20250514122259_mid.png office.png os.png overview_2_cropped.png powerpoint_trajectory.png premiere_trajectory.png rotate_animals_Animals_and_insects_coloring_book_slide_11_Lion_0_20251014014745_after.png rotate_animals_Animals_and_insects_coloring_book_slide_11_Lion_0_20251014014745_before.png rotate_animals_Animals_and_insects_coloring_book_slide_11_Lion_0_20251014014745_mid.png scientific.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키