OS Marathon 장기 반복 작업 컴퓨터 사용 에이전트 벤치마크
초록
본 논문은 장기·반복적인 업무 흐름을 처리하도록 설계된 컴퓨터 사용 에이전트(CUA)의 성능을 평가하기 위해 2개 도메인, 7개 실행 환경, 총 242개의 과제로 구성된 OS‑Marathon 벤치마크를 제시한다. 또한 전체 워크플로우를 직접 제시하기 어려운 상황을 해결하고자, 몇 개의 샘플만으로 핵심 단계만 압축한 ‘Few‑shot Condensed Workflow Demonstration(FCWD)’ 방식을 도입해 에이전트가 긴 작업을 효율적으로 학습하도록 한다. 실험 결과, 기존 최첨단 CUA들은 논리적 일관성, 행동 계획의 환각, 장기 유지 능력에서 크게 부족함을 보였으며, FCWD를 적용한 후 성능이 현저히 개선됨을 확인하였다.
상세 분석
OS‑Marathon은 장기·반복 작업이라는 아직 정의되지 않은 연구 공백을 메우기 위해, POMDP 기반의 형식적 정의를 제시하고 이를 실제 데스크톱 환경에 매핑한다. 작업은 D={d₁,…,d_N} 형태의 데이터 집합을 순차적으로 처리하는 N개의 서브 워크플로우 m_i 로 구성되며, 각 m_i는 동일한 로직을 공유하지만 입력 데이터만 달라지는 구조다. 이를 통해 에이전트가 “같은 절차를 여러 번 수행”하는 능력을 정확히 측정할 수 있다.
벤치마크는 Expense Report와 Transcript 두 도메인으로 나뉘며, 각각 3~5개의 웹·스프레드시트 기반 시스템을 포함한다. 데이터는 실제 영수증·성적표와 고품질 합성 데이터를 혼합해 시각적 다양성과 논리적 일관성을 동시에 확보하였다. 특히 합성 파이프라인은 LLM(GPT‑5)으로 사용자 프로필을 생성하고, 37개의 HTML 템플릿으로 문서 레이아웃을 재현해 대규모 확장이 가능하도록 설계되었다.
난이도는 데이터 양(N)과 개별 문서 복잡도(페이지 수·컬럼 수·레이아웃) 두 축으로 구분돼 7개의 레벨로 세분화된다. 예를 들어 Expense Report 레벨 4는 30개 이상의 영수증·다중 페이지 PDF를 처리하도록 요구한다. 이러한 설계는 에이전트가 메모리 제한, 컨텍스트 유지, 행동 순서 결정 등 장기 작업에서 직면하는 핵심 문제를 드러낸다.
실험에서는 최신 CUA(예: GPT‑4‑based agents, ReAct, Voyager 등)를 OS‑Marathon에 적용했으며, 세 가지 주요 실패 모드가 관찰되었다. 첫째, 논리적 비일관성으로 작업 순서를 뒤섞는다; 둘째, 행동 계획 단계에서 환각이 발생해 현재 화면에 존재하지 않는 정보를 입력한다; 셋째, 반복 루프를 몇 단계만 수행하고 조기에 종료한다.
이를 극복하기 위해 제안된 FCWD는 전체 워크플로우를 “전역 계획 단계”와 “서브 워크플로우 실행 단계”로 추상화한다. 몇 개의 샘플(보통 3~5개)만을 사용해 핵심 입력‑출력 매핑과 순차적 흐름을 압축 제시함으로써, 에이전트는 제한된 컨텍스트 내에서 전체 작업을 재구성한다. FCWD 적용 후, 기존 에이전트들의 성공률이 평균 27%p 상승하고, 특히 레벨 3·4와 같은 고난이도 시나리오에서 오류율이 크게 감소했다.
이 논문은 장기·반복 작업을 위한 벤치마크와 효율적인 학습 방법을 동시에 제공함으로써, 향후 CUA 연구가 실제 업무 자동화에 한 걸음 더 다가갈 수 있는 기반을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기