프로그램 기반 컨텍스트 관리로 장기 GUI 작업을 가능하게 하는 AgentProg

읽는 시간: 2 분
...

📝 원문 정보

  • Title: AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management
  • ArXiv ID: 2512.10371
  • 발행일: 2025-12-11
  • 저자: Shizuo Tian, Hao Wen, Yuxuan Chen, Jiacheng Liu, Shanhui Zhao, Guohong Liu, Ju Ren, Yunxin Liu, Yuanchun Li

📝 초록 (Abstract)

모바일 GUI 에이전트의 급속한 발전은 장기 과제 자동화에 대한 연구 관심을 높이고 있다. 그러나 이러한 과제를 수행하는 에이전트는 지속적으로 늘어나는 상호작용 기록에 의존해야 하며, 이는 큰 컨텍스트 오버헤드를 초래한다. 기존의 컨텍스트 관리 및 압축 기법은 중요한 의미 정보를 보존하지 못해 성능 저하를 일으킨다. 본 논문에서는 상호작용 기록을 변수와 제어 흐름을 갖는 프로그램 형태로 재구성하는 프로그램‑가이드 컨텍스트 관리 방식인 AgentProg을 제안한다. 프로그램 구조를 활용해 어떤 정보를 유지하고 어떤 정보를 버릴지 체계적으로 판단한다. 또한 부분 관측 문제와 환경 변화에 대응하기 위해 Belief MDP에서 영감을 얻은 전역 신념 상태 메커니즘을 통합하였다. AndroidWorld와 확장된 장기 과제 스위트에서 실험한 결과, AgentProg은 기존 벤치마크에서 최고 성공률을 기록했으며, 장기 과제에서 베이스라인이 급격히 성능이 떨어지는 반면 견고한 성능을 유지한다. 코드와 모델은 https://github.com/MobileLLM/AgentProg 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
AgentProg 논문은 모바일 GUI 자동화라는 실용적 문제를 해결하기 위해 ‘프로그램화된 컨텍스트 관리’라는 새로운 패러다임을 제시한다는 점에서 학술적·산업적 의의가 크다. 기존 LLM 기반 에이전트는 대화형 인터페이스에서 발생하는 수천 개의 터치, 스크롤, 텍스트 입력 등을 순차적으로 기록하고, 토큰 제한을 초과하면 중요한 정보를 임의로 삭제하거나 압축한다. 이러한 방식은 정보 손실을 야기해 특히 20~30 단계에 달하는 복합 작업에서 오류 전파가 심화된다. AgentProg은 이 문제를 ‘프로그램’이라는 형식으로 재구성함으로써 해결한다. 구체적으로, 에이전트가 수행한 각 행동을 함수 호출 혹은 명령문 형태로 저장하고, 변수에 현재 화면 상태, 사용자 입력, 앱 내부 데이터 등을 바인딩한다. 제어 흐름(조건문, 루프) 역시 프로그램 구조에 반영되므로, 에이전트는 “현재 단계에서 어떤 변수들이 사용됐는가”, “조건이 만족될 때만 유지해야 할 정보는 무엇인가” 등을 명시적으로 판단할 수 있다. 이는 전통적인 ‘슬라이딩 윈도우’ 방식보다 훨씬 정교한…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키