미래형 웹 에이전트 AvenirWeb 인간경험모방 멀티모달 자동화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Avenir-Web은 멀티모달 대형 언어 모델과 시각·구조적 전문가를 결합한 Mixture of Grounding Experts, 인간 가이드 기반 Experience‑Imitation Planning, 체크리스트 기반 Task‑Tracking 및 Adaptive Memory를 도입해 복잡하고 동적인 웹 인터페이스에서 장기 과제를 안정적으로 수행한다. 온라인‑Mind2Web 벤치마크에서 53.7% 성공률을 기록, 기존 오픈‑소스 에이전트를 크게 앞서며 상용 모델과도 성능이 동등함을 입증한다.

상세 분석

본 논문은 현재 웹 자동화 에이전트가 직면한 세 가지 핵심 병목—(1) 요소 그라운딩 오류, (2) 사이트‑특화 절차 지식 부재, (3) 장기 작업 추적·메모리 불안정—을 체계적으로 분석하고, 이를 해소하기 위한 네 가지 모듈을 설계하였다.

첫 번째 모듈인 Mixture of Grounding Experts(MoGE)는 시각‑우선 경로와 구조‑우선 경로를 동적으로 전환한다. 기본적으로 멀티모달 LLM(Qwen‑3‑VL‑8B 등)을 이용해 화면 전체를 캔버스로 인식하고, 복잡한 iframe·shadow‑DOM·canvas와 같은 비표준 요소를 시각적으로 식별한다. 시각 그라운딩이 불확실하거나 정밀 조작이 요구될 경우, 별도의 Semantic Structural Reasoner가 DOM 트리와 ARIA 속성을 활용해 보조적인 선택자를 생성한다. 이중‑경로 전략은 기존 단일‑모달 파이프라인이 여러 추론 단계에 걸쳐 오류를 누적시키는 문제를 크게 감소시킨다.

두 번째 모듈인 Experience‑Imitation Planning(EIP)은 인간이 작성한 온라인 가이드, 포럼, 헬프센터 등을 실시간 검색(Claude 4.5 Sonnet)으로 수집하고, 이를 요약·구조화해 고수준 절차 플랜을 만든다. 플랜은 2~4개의 추상적 명령어로 구성되며, 구체적인 셀렉터 대신 “페이지 하단으로 스크롤”·“검색창에 키워드 입력”과 같은 행동 목표를 제시한다. 이렇게 하면 에이전트가 무작위 탐색에 소모하는 토큰 수와 실패 확률을 크게 줄일 수 있다.

세 번째 모듈인 Task‑Tracking Checklist는 작업을 원자적 마일스톤(2~6개)으로 분해하고, 각 마일스톤의 성공 여부를 실시간으로 기록한다. 체크리스트는 실행 루프마다 업데이트되며, 현재 마일스톤이 달성되지 않으면 이전 단계로 되돌아가 재시도하거나 대안을 탐색한다. 이는 장기 작업에서 발생하는 “네비게이션 드리프트”와 “상태 소실”을 방지한다.

네 번째 모듈인 Adaptive Memory는 Chunked Recursive Summarization과 Failure Reflection을 결합한다. 에이전트가 수행한 행동 로그를 일정 길이 청크로 요약하고, 실패 사례를 별도 반영 버퍼에 저장한다. 요약된 메모리는 컨텍스트 윈도우 제한 내에서 전략적 판단에 재활용되며, 이전 오류를 반복하지 않도록 메타‑리플렉션을 제공한다.

실험에서는 온라인‑Mind2Web(300개 실시간 웹 태스크) 벤치마크를 사용해 Avenir‑Web을 평가하였다. 53.7% 성공률은 기존 오픈‑소스 모델(26~40% 수준)보다 23.7%p 절대 향상된 수치이며, 최신 상용 모델(OpenAI Operator 58.3%, Claude 3.7 47.3% 등)과도 근접한다. 특히 경량 Qwen‑3‑VL‑8B 기반 설정에서도 25.7% 성공률을 달성해, 모델 규모에 크게 의존하지 않는 설계임을 보여준다.

한계점으로는 (1) EIP가 외부 검색 엔진에 의존하므로 검색 결과 품질에 민감하고, (2) MoGE의 시각‑구조 전환 기준이 현재 휴리스틱에 기반해 있어 복잡한 동적 UI(예: 무한 스크롤, 실시간 그래프)에서 여전히 오류가 발생할 가능성이 있다. 향후 연구에서는 검색 결과 검증 메커니즘과 강화학습 기반 그라운딩 정책을 도입해 이러한 약점을 보완할 수 있다.

전반적으로 Avenir‑Web은 멀티모달 인식, 인간 지식 모방, 구조화된 작업 관리, 그리고 장기 메모리 관리라는 네 축을 통합함으로써, 실시간 웹 자동화 분야에서 오픈‑소스 모델이 상용 수준에 도달할 수 있음을 실증하였다.

미래형 웹 에이전트 AvenirWeb 인간경험모방 멀티모달 자동화

초록

상세 분석

댓글 및 학술 토론

의견 남기기