프로그램 기반 컨텍스트 관리로 장기 GUI 작업을 가능하게 하는 AgentProg
읽는 시간: 2 분
...
📝 원문 정보
- Title: AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management
- ArXiv ID: 2512.10371
- 발행일: 2025-12-11
- 저자: Shizuo Tian, Hao Wen, Yuxuan Chen, Jiacheng Liu, Shanhui Zhao, Guohong Liu, Ju Ren, Yunxin Liu, Yuanchun Li
📝 초록 (Abstract)
모바일 GUI 에이전트의 급속한 발전은 장기 과제 자동화에 대한 연구 관심을 높이고 있다. 그러나 이러한 과제를 수행하는 에이전트는 지속적으로 늘어나는 상호작용 기록에 의존해야 하며, 이는 큰 컨텍스트 오버헤드를 초래한다. 기존의 컨텍스트 관리 및 압축 기법은 중요한 의미 정보를 보존하지 못해 성능 저하를 일으킨다. 본 논문에서는 상호작용 기록을 변수와 제어 흐름을 갖는 프로그램 형태로 재구성하는 프로그램‑가이드 컨텍스트 관리 방식인 AgentProg을 제안한다. 프로그램 구조를 활용해 어떤 정보를 유지하고 어떤 정보를 버릴지 체계적으로 판단한다. 또한 부분 관측 문제와 환경 변화에 대응하기 위해 Belief MDP에서 영감을 얻은 전역 신념 상태 메커니즘을 통합하였다. AndroidWorld와 확장된 장기 과제 스위트에서 실험한 결과, AgentProg은 기존 벤치마크에서 최고 성공률을 기록했으며, 장기 과제에서 베이스라인이 급격히 성능이 떨어지는 반면 견고한 성능을 유지한다. 코드와 모델은 https://github.com/MobileLLM/AgentProg 에서 공개한다.💡 논문 핵심 해설 (Deep Analysis)
