스냅으로 배우는 AI: ScratchWorld 로 GUI 프로그래밍 에이전트 평가

스냅으로 배우는 AI: ScratchWorld 로 GUI 프로그래밍 에이전트 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ScratchWorld는 Scratch 블록 기반 환경에서 프로그램을 직접 구성하도록 설계된 83개의 과제로 구성된 벤치마크이다. 원시 모드와 복합 모드 두 가지 인터랙션 방식을 제공해 논리적 추론과 시각‑운동 제어를 분리하고, 실행 기반 테스트로 기능적 정합성을 검증한다. 실험 결과 최신 멀티모달 모델은 복합 모드에서는 78 % 이상의 성공률을 보이지만, 원시 모드에서는 14 % 수준으로 급격히 떨어져 ‘추론‑행동 격차’를 드러낸다. 주요 실패 원인은 드래그‑앤‑드롭의 끝점 위치 파악이며, 정적 시각 인식 능력은 충분히 높아도 동적 조작 정확도가 낮다.

상세 분석

본 논문은 저코드 교육 환경인 Scratch를 대상으로 GUI 기반 프로그래밍 에이전트를 체계적으로 평가하기 위한 새로운 벤치마크, ScratchWorld를 제안한다. 기존 GUI 에이전트 벤치마크가 웹 탐색, 파일 관리 등 제한된 상호작용에 초점을 맞춘 반면, ScratchWorld는 블록을 직접 끌어다 놓아 실행 가능한 프로그램을 만들도록 요구한다는 점에서 차별화된다.

벤치마크는 Use‑Modify‑Create 교육 프레임워크에 기반해 Create, Debug, Extend, Compute 네 가지 문제 유형으로 83개의 과제를 구성한다. Create와 Compute는 빈 캔버스에서 새로운 프로젝트를 설계하거나 순수 알고리즘을 구현하도록 요구하며, 고차원 계획 및 논리적 조합 능력을 테스트한다. Debug와 Extend는 기존 프로젝트에 버그를 삽입하거나 기능을 확장하도록 설계돼, 수정·보강 능력을 평가한다.

핵심 설계인 이중 인터랙션 모드가 특히 주목할 만하다. Primitive mode에서는 스크린샷과 요소 인덱스를 제공하고, 에이전트가 클릭·드래그·타이핑 등 저수준 UI 원시 동작을 직접 수행한다. 이를 통해 시각‑운동 제어 능력을 정밀하게 측정한다. 반면 Composite mode에서는 고수준 API(예: add_block, connect_blocks)를 사용해 블록 논리를 선언적으로 조작하게 함으로써, 순수 논리 추론 능력만을 평가한다. 두 모드 간 성능 차이를 통해 ‘추론‑행동 격차’를 명확히 드러낼 수 있다.

평가 프로토콜은 Scratch VM을 활용한 실행 기반 테스트로, 생성된 프로젝트가 실제 브라우저 환경에서 요구된 동작을 수행하는지 검증한다. 이는 단순 정답 매칭이 아닌 기능적 정합성을 보장하므로, 에이전트가 만든 코드가 실제로 동작하는지를 객관적으로 판단한다.

실험에서는 Claude‑Sonnet‑4.5, GPT‑4‑Vision, Gemini‑Pro 등 최신 멀티모달 LLM을 GUI 에이전트 파이프라인에 연결해 두 모드에서 평가하였다. Composite mode에서는 78.31%의 성공률을 기록했으며, 이는 대부분의 과제를 논리적으로 해결할 수 있음을 의미한다. 그러나 Primitive mode에서는 최고 14.46%에 불과했으며, 특히 드래그‑앤‑드롭의 끝점 위치를 정확히 지정하지 못하는 오류가 빈번했다. 이를 확인하기 위해 별도 Single‑Step Drag Benchmark를 수행했으며, 시작점이 주어졌음에도 불구하고 목표 위치 지정 정확도가 23~32% 수준에 머물렀다.

시각 인식 능력 자체는 Visual Perception QA Benchmark에서 90.5% 이상의 정확도를 보였지만, 이는 동적 조작 성공률과 직접적인 상관관계를 보이지 않았다. 즉, 정적 이미지에서 객체를 인식하는 능력은 충분하지만, 실시간 피드백을 반영해 정확히 드래그‑드롭을 수행하는 폐쇄‑루프 제어가 아직 미흡함을 보여준다.

논문은 이러한 결과를 바탕으로 앞으로의 연구 방향을 제시한다. 첫째, 고정밀 좌표 추정 및 연속적인 마우스 움직임 제어를 위한 강화학습 기반 정책이 필요하다. 둘째, 시각‑운동 통합 모델이 정적 인식과 동적 행동을 동시에 학습하도록 멀티태스크 학습 프레임워크를 설계해야 한다. 셋째, Scratch와 같은 블록 기반 환경에 특화된 시뮬레이터를 구축해 대규모 시뮬레이션 기반 학습을 가능하게 해야 한다.

결론적으로, ScratchWorld는 “프로그램을 설계할 수 있는가?”와 “그 프로그램을 실제 GUI에서 구현할 수 있는가?”를 명확히 구분해 평가함으로써, 현재 멀티모달 에이전트가 직면한 가장 큰 병목이 시각‑운동 제어임을 입증한다. 향후 연구는 이 병목을 해소하는 데 초점을 맞춰야 하며, 이는 저코드 교육에서 AI 튜터가 실질적인 손동작 지원을 제공하는 데 필수적이다.


댓글 및 학술 토론

Loading comments...

의견 남기기