상상으로 배우는 웹 에이전트: DynaWeb 모델 기반 강화학습
초록
DynaWeb은 LLM 기반 웹 월드 모델을 학습시켜 가상 웹 환경을 만들고, 이 환경에서 생성된 상상 롤아웃과 실제 전문가 데이터(데모)를 혼합해 웹 에이전트를 강화학습한다. 실험 결과, WebArena와 WebVoyager 벤치마크에서 기존 오픈소스 웹 에이전트보다 일관되게 높은 성공률을 달성하며, 실 웹 상호작용 비용을 크게 절감한다.
상세 분석
본 논문은 웹 에이전트 학습의 핵심 병목인 실시간 인터넷 상호작용 비용과 위험성을 모델 기반 강화학습(MBRL)으로 해결하고자 한다. 저자들은 접근성 트리(accessibility tree) 형태의 웹 페이지 상태를 직접 예측하는 LLM 기반 월드 모델(p ϕ)을 설계했으며, 이는 “현재 관찰 oₜ + 행동 aₜ → 상태 변화 설명 Δ(oₜ, oₜ₊₁)”를 생성하고, 이 설명을 기존 관찰에 적용해 다음 관찰을 재구성한다. 이렇게 하면 전체 텍스트를 예측하는 부담을 줄이고, 페이지 구조가 대부분 유지되는 상황에서도 의미 있는 학습 신호를 얻을 수 있다.
월드 모델은 대규모 실제 웹 인터랙션 데이터(NNetNav)에서 추출한 정제된 트래젝터리를 사용해 사전 학습한다. 이후 DynaWeb 프레임워크는 (1) 정책이 월드 모델과 상호작용해 다중 스텝 상상 롤아웃을 생성하고, (2) 모델 기반 자체 평가를 통해 이 롤아웃에 0/1 보상을 부여한다. 중요한 점은 실제 전문가 트래젝터리(데모)를 일정 비율로 무작위 삽입함으로써, 순수 상상 데이터만으로 발생할 수 있는 모델 편향을 완화하고, 온‑폴리시 학습 신호를 유지한다는 것이다.
학습 목표는 시퀀스 레벨 정책 최적화(예: PPO 변형)이며, 긴 호라이즌 웹 작업에서 희소한 최종 보상에 대한 효율적인 크레딧 할당을 가능하게 한다. 실험에서는 베이스라인인 WebAgent‑R1, WebRL 등과 비교해 성공률이 평균 7~12%p 상승했으며, 실제 웹 호출 횟수는 80% 이상 감소했다. 또한, 월드 모델의 품질을 평가한 결과, Δ 예측 정확도가 92%에 달했으며, 이는 상상 롤아웃의 현실성을 뒷받침한다.
한계점으로는 월드 모델이 복잡한 자바스크립트 동작이나 비동기 로딩을 완벽히 재현하지 못한다는 점, 그리고 현재 접근성 트리만을 사용함으로써 시각적 요소(이미지, 캔버스 등)와의 연계가 제한적이라는 점을 언급한다. 향후 연구에서는 멀티모달 관찰 공간 확대와, 모델 기반 탐색 정책(예: MBPO) 도입을 통해 더욱 정교한 시뮬레이션과 샘플 효율성을 추구할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기