DFS 기반 GUI 에이전트의 백트래킹과 적응형 플래닝
초록
본 논문은 GUI 작업을 깊이 우선 탐색(DFS) 문제로 모델링하고, 장기·다단계 상태 백트래킹과 동적 작업 추적을 결합한 BEAP‑Agent 프레임워크를 제안한다. Planner‑Executor‑Tracker 삼위 일체 구조로 구성된 BEAP‑Agent는 오류 발생 시 조기에 전체 경로를 되돌아가 재계획을 수행함으로써 기존 단일 단계 백트래킹 방식의 한계를 극복한다. OSWorld 벤치마크에서 28.2%의 성공률을 기록했으며, 백트래킹 없이 실험했을 때 대비 1.9%p, Tracker 없이 실험했을 때 대비 4.6%p 향상된 결과를 보였다.
상세 분석
BEAP‑Agent는 GUI 환경을 상태 집합 S와 행동 집합 A(s)로 정의하고, 전이 함수 T(s, a)를 통해 상태 전이를 모델링한다. 이때 각 상태는 화면 스크린샷에 해당하며, 행동은 마우스 클릭·드래그·스크롤·키보드 입력 네 가지로 제한한다. 탐색 전략으로 전통적인 깊이 우선 탐색(DFS)을 채택함으로써, 현재 노드에 미탐색 행동이 존재하면 바로 실행하고, 모든 행동이 소진되면 가장 가까운 조상 노드로 되돌아가 아직 탐색되지 않은 분기를 선택한다. 이러한 백트래킹은 “실패 경로 기록” 메커니즘과 결합돼 동일 경로를 재탐색하지 않도록 보장한다.
프레임워크는 세 개의 모듈로 구성된다. Planner는 초기 작업 X와 현재 상태 s, 그리고 지금까지 실패한 경로 집합 F를 입력받아 서브태스크 리스트 P를 생성한다. 이때 완료된 서브태스크는 상태 COMPLETED로 유지하고, 실패 경로를 회피하도록 계획을 재구성한다. Executor는 Planner가 만든 서브태스크와 현재 화면, 히스토리 H를 바탕으로 구체적인 행동 a를 생성하고, 이를 실행해 새로운 상태 s′를 만든다. 백트래킹 모드에서는 히스토리 정보를 활용해 이전 상태로 되돌아가는 행동을 만든다. Tracker는 Executor 실행 후 화면을 분석해 각 서브태스크의 진행 상황을 업데이트하고, 전역 실행 상태 E를 판단한다. E가 CONTINUE이면 현재 플랜을 유지, BACKTRACK이면 백트래킹을 트리거, FAIL이면 작업을 포기, DONE이면 성공으로 종료한다. 백트래킹 모드에서는 회복 여부를 RECOVERED/NOT RECOVERED 로 반환한다.
실험에서는 OSWorld(369개 실제 데스크톱 작업) 벤치마크를 사용했으며, GPT‑4o를 Planner와 Tracker에, UI‑TARS‑1.5‑7B를 Executor에 각각 적용했다. 50스텝 제한 하에 BEAP‑Agent는 28.2%의 정확도를 달성했으며, 이는 기존 최고 성능 모델(Agent S2 26.6%) 대비 1.6%p 절대, 6%p 상대 향상이다. 백트래킹이 전체 작업의 35.8%에서 트리거됐으며, 그 중 65.5%가 성공적으로 복구되었다. 평균 백트래킹 스텝은 2.72로, 비용 효율성이 높았다. Ablation 실험에서 백트래킹을 제거하면 정확도가 26.3%로 감소하고, Tracker를 제거하면 23.6%까지 급락한다. 이는 다단계 백트래킹과 동적 작업 추적이 성능 향상의 핵심 요인임을 입증한다. 또한, Chrome·Workflow 등 화면 변동이 큰 도메인에서 특히 높은 개선 효과를 보였으며, 이는 상태 전이가 명확히 감지될 때 백트래킹이 유리함을 시사한다. 메모리 관리 측면에서는 스택 기반 스냅샷과 슬라이딩 윈도우 체크포인트를 사용해 오버헤드를 제한한다.
전체적으로 BEAP‑Agent는 GUI 자동화에서 오류 복구와 재계획을 체계화함으로써, 기존 단일 단계 백트래킹이나 플래너‑액션 일회성 연결 방식의 한계를 극복한다. 향후 연구는 다양한 모델 간 협업, 더 정교한 화면 이해, 그리고 장기 기억 관리 기법을 통합해 성공률을 더욱 끌어올리는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기