웹 에이전트를 위한 신뢰성 테스트 타임 스케일링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 웹 기반 에이전트가 다단계 작업을 수행할 때, 테스트 시점에 계산량을 동적으로 할당하는 방법인 CATTS(Confidence‑Aware Test‑Time Scaling)를 제안한다. 후보 행동들의 투표 분포에서 추출한 엔트로피와 1‑2위 차이를 불확실성 지표로 활용해, 불확실한 단계에만 추가 샘플링과 Arbiter 판단을 적용함으로써, 기존의 균일 샘플링 대비 최대 9.1%의 성공률 향상과 토큰 사용량 2.3배 절감을 달성한다.

상세 분석

이 연구는 LLM 기반 웹 에이전트가 긴 시퀀스에서 작은 오류가 누적되는 문제를 해결하고자, 테스트‑타임 스케일링을 에이전트 루프에 직접 적용한다. 초기 실험에서는 각 단계마다 동일한 수(N)의 후보 행동을 샘플링하고 다수결로 선택하는 ‘Uniform Majority Voting’이 토큰 비용이 기하급수적으로 증가함에도 불구하고 성공률 향상이 미미함을 확인했다. 이는 대부분의 단계가 명확히 정의된 행동을 요구하지만, 일부 복잡한 단계에서는 후보가 다양하게 분산돼 다수결이 신뢰성을 제공하지 못하기 때문이다. 이를 보완하기 위해 ‘Arbiter’ 모델을 도입해 후보 집합을 입력으로 추가 LLM 호출을 수행, 보다 정교한 판단을 내렸다. 그러나 Arbiter 역시 모든 경우에 이득을 주지는 못했으며, 특히 후보들 간 합의가 강할 때는 불필요한 재판단으로 오히려 성능이 저하되는 ‘overthinking’ 현상이 관찰되었다.
핵심 통찰은 후보 행동들의 투표 분포 자체가 불확실성 신호를 제공한다는 점이다. 저자들은 엔트로피 Hₜ와 1‑2위 차이 Δₜ를 계산해, 이 값이 사전에 정의한 임계값 τ를 초과할 경우에만 Arbiter를 호출하도록 정책을 설계했다. 이를 ‘Confidence‑Aware Test‑Time Scaling (CATTS)’이라 명명하고, 토큰 사용량 대비 성공률을 최적화한다. 실험 결과, WebArena‑Lite와 GoBrowse 두 벤치마크에서 CATTS는 동일 토큰 예산 하의 Uniform Scaling보다 평균 4.5%p 높은 성공률을 보였으며, 동일 성공률을 달성하는 데 필요한 토큰 수는 약 2배 이상 절감되었다. 또한, 불확실성 기반 트리거가 높은 단계에서만 추가 연산을 수행함으로써, 전체 파이프라인의 지연 시간도 크게 감소했다. 이와 같이 투표 기반 불확실성 측정과 선택적 Arbiter 호출을 결합한 접근법은, 기존의 무조건적인 샘플링 확대가 비효율적인 상황에서 효율적인 대안을 제시한다.

웹 에이전트를 위한 신뢰성 테스트 타임 스케일링

초록

상세 분석

댓글 및 학술 토론

의견 남기기