오프폴리시에서 온폴리시로 GUI 에이전트 강화

오프폴리시에서 온폴리시로 GUI 에이전트 강화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 GUI 기반 컴퓨터 사용 에이전트를 위한 새로운 강화학습 프레임워크 BEPA를 제안한다. BEPA는 기존 프레임워크 에이전트의 전문가 궤적을 두 단계(Level‑1, Level‑2)로 변환·정렬하여 정책‑친화적인 가이드로 만든다. Level‑1에서는 전문가 계획을 기반으로 베이스 정책이 자체 롤아웃을 수행해 정책에 맞는 궤적을 생성하고, Level‑2에서는 성공한 자체 궤적을 동적으로 캐시해 온‑정책 학습 중 전체 실패 시에만 오프‑정책 궤적을 삽입한다. OSWorld‑Verified, MMBench‑GUI, Online‑Mind2Web 등 세 벤치마크에서 기존 UIT‑ARS1.5‑7B 대비 성공률을 10% 이상 끌어올렸다.

상세 분석

BEPA는 GUI 에이전트 학습에서 두 가지 근본적인 병목을 해결한다. 첫째, 프레임워크 기반 전문가 궤적은 플래너·실행기·그라운더 등 다중 역할과 API‑레벨 액션을 포함해 엔드‑투‑엔드 정책이 직접 모방하기 어렵다. 둘째, 형식 변환만으로는 전문가 궤적이 베이스 정책의 분포에서 크게 벗어나며, 온‑정책 RLVR에서 신뢰할 수 있는 보상이 거의 없을 경우 학습이 붕괴된다. BEPA는 이를 두 단계로 분리한다. Level‑1에서는 전문가 궤적을 자연어 계획(pₓ)으로 요약하고, 이를 입력에 추가해 베이스 정책이 자체적으로 재실행(self‑rolled)한다. 성공적인 재실행 궤적은 정책‑매니폴드에 가까운 형태이므로, 오프‑정책 데이터와의 분포 차이를 크게 감소시킨다. Level‑2에서는 이러한 self‑rolled 궤적을 per‑task 캐시(Eₓ)에 저장하고, 학습 중에 온‑정책 롤아웃이 전부 실패할 때만 캐시된 궤적을 교체한다. 이렇게 하면 정책이 스스로 성공 영역을 확장하면서도, 여전히 전문가 지식이 희소한 보상 신호를 보완한다. BEPA는 GRPO(그룹 기반 정책 최적화)와 자연스럽게 결합된다. 혼합된 궤적 집합 ˆTₓ에 대해 그룹 전체 평균 보상을 기준으로 advantage를 계산하고, CLIP 기법으로 정책 업데이트를 제한해 신뢰 구역 내에서 안정적으로 학습한다. 실험 결과, OSWorld‑Verified에서 전체 성공률이 22.87%에서 32.13%로 9.26%p 상승했으며, 특히 훈련에 포함되지 않은 보류 집합에서는 5.74%에서 10.30%로 두 배 이상 향상되었다. MMBench‑GUI와 Online‑Mind2Web에서도 일관된 개선을 보였으며, 분석을 통해 정책‑정렬된 오프‑정책 데이터가 분포 정렬과 보상 신호 제공에 핵심 역할을 함을 확인했다. 전반적으로 BEPA는 구조적·분포적 불일치를 단계적으로 완화하고, 소량의 고품질 전문가 데이터를 효율적으로 활용해 엔드‑투‑엔드 GUI 정책의 성능 한계를 크게 확장한다.


댓글 및 학술 토론

Loading comments...

의견 남기기