컴퓨터 사용 에이전트를 위한 재사용 가능한 스킬 라이브러리 CUA‑Skill

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CUA‑Skill은 Windows GUI 환경에서 인간의 작업 방식을 캡처한 파라미터화된 스킬 집합과 실행·조합 그래프를 제공한다. 이를 기반으로 만든 CUA‑Skill Agent는 동적 스킬 검색·인자 채우기·메모리 기반 오류 복구를 수행해, WindowsAgentArena에서 57.5%의 성공률(베스트‑오브‑쓰리)과 기존 방법 대비 높은 효율성을 달성한다.

상세 분석

본 논문은 현재 컴퓨터‑사용 에이전트(CUA)가 직면한 두 가지 근본적 한계를 짚는다. 첫째, 인간이 GUI를 조작할 때 활용하는 재사용 가능한 절차적 지식이 모델에 명시적으로 포함되지 않아, 매번 새로운 작업을 처음부터 학습해야 한다는 점이다. 둘째, 긴 작업 흐름에서 작은 오류가 누적돼 전체 성공률이 급격히 떨어진다. 이를 해결하기 위해 저자들은 “스킬”이라는 중간 추상화를 도입한다. 스킬은 (① 적용 애플리케이션, ② 자연어 의도, ③ 인자 스키마, ④ 파라미터화된 실행 그래프) 로 정의되며, 실행 그래프는 GUI 원시 동작(키 입력, 마우스 클릭)과 스크립트 호출을 하나의 노드·에지 구조로 통합한다. 인자 도메인은 유한·무한 두 종류로 구분해, 유한 도메인은 UI 상태에서 직접 열거하고, 무한 도메인은 샘플링·히스토리 기반 생성기로 처리한다. 이렇게 하면 동일 스킬이 다양한 UI 변형이나 파일 경로 등 상황에 맞게 재사용될 수 있다.

스킬 조합 그래프는 개별 스킬 간의 순서·호환성을 명시한다. 단일 애플리케이션 내부뿐 아니라 애플리케이션 간 전이도 모델링함으로써, 인간이 “문서 열기 → 복사 → 붙여넣기”와 같은 멀티‑앱 워크플로를 자연스럽게 재현한다.

CUA‑Skill Agent는 LLM 기반 플래너와 검색·재순위·인자 채우기 파이프라인을 결합한다. 매 단계마다 현재 화면 관찰을 바탕으로 K개의 질의를 생성하고, 검색 모듈이 상위 L개의 후보 스킬을 반환한다. 재순위 단계에서는 메모리(실행 히스토리)와 현재 UI 컨텍스트를 고려해 최적 스킬을 선택하고, 인자 생성기는 스킬 정의에 맞는 도메인에서 값을 추출한다. 선택된 스킬은 GUI 그라운더 혹은 스크립트 실행기로 전달되며, 실행 결과는 메모리에 요약·저장돼 다음 단계에 피드백으로 활용된다. 실패 시 메모리 기반 복구 메커니즘이 이전 성공/실패 기록을 참고해 대안을 탐색한다.

실험에서는 (1) 트래젝터리 생성 단계에서 76.4% 성공률을 기록해 기존 베이스라인 대비 1.7×~3.6× 향상, (2) WindowsAgentArena 전반적인 엔드‑투‑엔드 벤치마크에서 57.5% 베스트‑오브‑쓰리 성공률을 달성했다. 특히 동일 성공률을 얻기 위해 필요한 실행 스텝 수가 크게 감소했으며, 이는 스킬 기반 구조가 불필요한 탐색을 억제하고 오류 전파를 차단함을 의미한다.

핵심 기여는 (① 재사용 가능한 파라미터화 스킬 라이브러리 제공, ② 스킬‑중심 에이전트 설계, ③ 실증적 성능 향상)이며, 향후 스킬 확장·자동 생성·다중 OS 지원 등으로 연구 범위를 넓힐 여지가 있다.

컴퓨터 사용 에이전트를 위한 재사용 가능한 스킬 라이브러리 CUA‑Skill

초록

상세 분석

댓글 및 학술 토론

의견 남기기