웹 동작을 위한 타입드 추상화
초록
본 논문은 웹 에이전트가 저수준 클릭·키 입력 대신 “웹 동사(Web Verbs)”라 불리는 타입드 함수 인터페이스를 활용하도록 제안한다. 웹 동사는 사이트 기능을 API 혹은 브라우저 자동화로 구현한 일관된 호출 형태를 제공하며, 사전·사후 조건, 정책 태그, 로깅 등을 포함한다. 이를 통해 신뢰성·효율성·검증 가능성을 크게 향상시키고, LLM 기반 에이전트가 짧은 프로그램 코드로 복합 작업을 합성하도록 돕는다. 프로토타입 구현과 여행·가구 쇼핑 사례를 통해 기존 에이전트 대비 성공률 100%와 실행 시간 2‑8배 단축을 입증한다.
상세 분석
논문은 현재 웹 에이전트가 클릭·스크롤·텍스트 입력 같은 저수준 행동에 의존함으로써 발생하는 신뢰성·가용성·효율성 문제를 명확히 진단한다. 특히 GUI 기반 에이전트는 페이지 구조 변화에 민감하고, API 기반 에이전트는 사용자 인터랙션이 필요한 기능을 커버하지 못한다는 점을 강조한다. 이러한 한계를 극복하기 위해 제안된 “웹 동사(Web Verbs)”는 사이트 개발자가 제공하는 타입드 함수 형태의 추상화 레이어이다. 각 동사는 (1) 자연어 설명을 포함한 의미적 명세, (2) 정형화된 입력·출력 타입, (3) 전·후조건과 정책 태그, (4) 실행 로그를 자동 기록하는 계약(contract) 등을 갖는다. 구현 측면에서는 두 가지 경로를 제시한다. 첫째, 기존 RESTful API를 그대로 래핑하여 함수 시그니처와 DocString을 메타데이터베이스에 등록한다. 둘째, API가 없을 경우 Playwright와 같은 브라우저 자동화 라이브러리를 이용해 순차적인 UI 조작을 코드화하고 이를 동일한 함수 인터페이스로 감싼다. 이렇게 하면 에이전트는 “API vs. GUI” 구분 없이 동일한 호출 방식으로 사이트 기능에 접근한다.
LLM 기반 코딩 에이전트는 이제 저수준 행동을 예측하는 대신, 목표 작업을 해결하기 위한 동사 호출 시퀀스를 포함한 프로그램 코드를 합성한다. 동사의 타입 정보와 전후조건은 프롬프트 엔지니어링에 활용되어 LLM이 보다 정확한 인수 매핑과 오류 방지를 수행하게 만든다. 또한, 동사 체인은 조건문·반복문 등 일반 프로그래밍 제어 구조와 결합될 수 있어 복합적인 워크플로우를 사전에 정의된 형태로 표현한다. 이는 기존 에이전트가 매 단계마다 상태를 관찰하고 다음 행동을 예측하던 “perception‑action loop”을 탈피하게 한다.
실험에서는 두 개의 실제 시나리오(여행 계획, 가구 쇼핑)와 100개의 다양한 웹 작업 벤치마크를 사용해 프로토타입을 평가하였다. 결과는 기존 브라우저 기반·API 기반 에이전트가 복합 작업에서 30‑50% 이하의 성공률을 보인 반면, 웹 동사 기반 시스템은 100% 성공률을 기록했다. 또한, 동일 작업을 수행하는 데 소요된 시간은 기존 방식의 2.7배~8.3배가량 빠른 것으로 나타났다. 이러한 성과는 동사 레이어가 제공하는 “고수준, 타입드, 검증 가능한” 인터페이스가 에이전트의 추론 부담을 크게 줄이고, 실행 중 오류를 사전에 차단함을 증명한다.
마지막으로 논문은 웹 동사의 표준화 로드맵을 제시한다. 동사 명명 규칙, 등록·검색 프로토콜, 개발자 도구 체인, 보안·프라이버시 정책, 그리고 공개 벤치마크 구축 등이 포함된다. 이는 웹 생태계 전반에 걸쳐 동사 레이어를 채택하도록 유도하고, 장기적으로는 “에이전트 친화적 웹”을 구현하는 기반이 될 것으로 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기