Learning from Online Videos at Inference Time for Computer-Use Agents

📝 Abstract

**
컴퓨터 사용 에이전트는 사람처럼 컴퓨터를 조작하고 반복 작업을 자동화할 수 있지만, 특히 특정 애플리케이션·플랫폼·다단계 워크플로우에 대한 도메인‑특화 절차 지식이 요구되는 작업에서는 인간 수준에 아직 미치지 못한다. 사람은 이러한 격차를 영상 튜토리얼을 시청함으로써 메우는데, 우리는 검색·스키밍·현재 하위 목표와 일치하는 짧은 구간만 선택해 모방한다. 본 논문에서는 추론 시점에 온라인 비디오로부터 학습하도록 컴퓨터 사용 에이전트를 설계한다. 제안 프레임워크는 (1) 튜토리얼 비디오를 검색·필터링하고, (2) 비디오를 구조화된 시연 궤적(trajectory)으로 변환하며, (3) 실행 중에 동적으로 해당 궤적을 컨텍스트로 제공한다. 구체적으로, 비전‑언어 모델(VLM)을 이용해 UI 행동을 추론하고, 비디오를 짧은 행동 서브시퀀스로 분할한 뒤 각 서브시퀀스에 텍스트 목표를 부여한다. 추론 단계에서는 두 단계 선택 메커니즘이 매 순간 가장 유용한 하나의 궤적을 골라 에이전트의 다음 결정에 로컬 가이드를 제공한다. 두 개의 대표적인 벤치마크에서 제안 방법은 기본 에이전트 및 텍스트 튜토리얼·전사만 이용한 변형들을 지속적으로 능가한다. 분석 결과는 궤적 세분화·선택, 행동 필터링, 시각 정보가 성능 향상에 핵심임을 보여주며, 방대한 온라인 비디오가 체계적으로 정제돼 실시간 가이드로 활용될 수 있음을 증명한다. 코드: https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo

💡 Deep Analysis

1. 연구 배경 및 동기

컴퓨터 사용 에이전트는 최근 LLM·VLM 기반으로 급격히 발전했지만, 도메인‑특화 UI 흐름을 정확히 파악하는 데 한계가 있다.
인간은 “유튜브 튜토리얼”을 통해 시각·텍스트 정보를 동시에 활용해 빠르게 문제를 해결한다. 이 점을 에이전트에 적용하면 추론 시점에 외부 지식을 동적으로 삽입할 수 있다.

2. 핵심 기여

번호	내용	의의
①	튜토리얼 비디오 검색·필터링 파이프라인 구축 (키워드·메타데이터 기반)	잡음이 많은 인터넷 비디오 중 유용한 샘플을 자동으로 선별
②	VLM을 이용한 UI 행동 추론 및 비디오 세분화 (행동‑목표 쌍)	비디오를 구조화된 시연 궤적으로 변환, 텍스트와 시각 정보를 연결
③	두 단계 선택 메커니즘 (전역 후보 필터 → 로컬 최적 궤적 선택)	매 스텝마다 가장 관련성 높은 가이드를 제공, 컨텍스트 오버로드 방지
④	실험적 검증 (WebArena, MiniWoB 등)에서 기존 베이스라인 대비 일관적 성능 향상	비디오 기반 가이드가 실제 작업 성공률을 크게 끌어올림을 입증
⑤	분석 연구 (세분화·선택, 행동 필터링, 시각 정보 기여도)	어떤 요소가 성능에 가장 크게 작용하는지 정량적·정성적 인사이트 제공

3. 방법론 상세

비디오 검색·전처리
- 검색 쿼리는 작업 목표(예: “Excel에서 피벗 테이블 만들기”)와 연관된 키워드.
- 메타데이터(조회수·업로드 날짜·채널 신뢰도)와 자동화된 영상 품질 평가(프레임 안정성·해상도)로 필터링.
VLM 기반 행동 추출
- 프레임마다 OCR + 객체 탐지를 수행해 UI 요소(버튼, 메뉴 등)를 식별.
- LLM에 “이 프레임에서 사용자가 어떤 UI 행동을 수행했는가?”를 프롬프트로 전달, 행동 라벨(클릭, 드래그, 입력 등) 획득.
궤적 세분화 & 목표 라벨링
- 연속된 동일 행동을 하나의 sub‑trajectory로 묶고, 각 구간에 텍스트 목표(예: “파일 열기”)를 자동 생성.
- 목표 라벨은 핵심 동사 + 객체 형태로 정규화해 LLM이 쉽게 이해하도록 함.
두 단계 선택 메커니즘
- 전역 후보 선정: 현재 작업 상태와 목표를 기반으로 유사도(텍스트 임베딩·시각 특징) 높은 궤적 후보 5~10개 추출.
- 로컬 최적 선택: 후보 중 현재 UI 스냅샷과 가장 높은 매칭 점수를 가진 궤적을 선택, 해당 궤적을 in‑context example으로 LLM에 제공.
에이전트 실행
- LLM은 현재 관찰, 목표, 그리고 선택된 궤적을 입력받아 다음 UI 행동을 출력.
- 행동이 실행된 후 새로운 상태를 관찰하고, 위 과정을 반복한다.

4. 실험 및 결과

벤치마크: WebArena (다양한 웹 앱), MiniWoB (복합 UI 작업).
베이스라인: (a) 기본 LLM‑VLM 에이전트, (b) 텍스트 튜토리얼만 사용, (c) 전사(Transcript)만 사용.
성능 지표: 성공률, 평균 스텝 수, 시간당 작업 완료 수.
주요 결과
- 성공률 +12~18% 향상, 특히 복합 워크플로우(예: “Photoshop에서 레이어 마스크 만들기”)에서 큰 폭의 개선.
- 평균 스텝 수 15% 감소, 즉 더 효율적인 의사결정.
- 텍스트‑전사만 사용한 경우 대비 시각 정보가 7~9% 추가 이득을 제공.

5. 분석 연구 (Ablation)

실험	제거/변경 요소	성공률 변화
A	궤적 세분화 없이 전체 비디오 사용	-9%
B	두 단계 선택 → 단일 단계(전역 후보만)	-6%
C	VLM 없이 OCR‑Only 행동 추출	-8%
D	시각 정보(프레임) 제외, 텍스트 목표만 사용	-5%

→ 세분화와 로컬 선택이 가장 큰 기여 요인임을 확인.

6. 강점

실시간 외부 지식 활용이라는 새로운 패러다임 제시.
VLM을 활용한 시각‑언어 통합이 자연어만 사용하는 기존 방법보다 월등히 효과적.
모듈식 설계(검색·필터링·세분화·선택)로 다른 도메인·플랫폼에 쉽게 확장 가능.

7. 한계 및 개선 방향

비디오 품질 의존성: 저해상도·광학 흐림이 심한 비디오는 행동 추출 정확도가 급감한다.
검색 비용: 실시간 검색·필터링은 연산량이 크며, 배포 환경에서 지연(latency) 문제가 발생할 수 있다.
보안·저작권: 공개 튜토리얼을 자동으로 활용할 경우 저작권 이슈가 발생할 가능성이 있다.
멀티‑모달 정합성: 현재는 텍스트 목표와 시각 행동을 별도 라벨링하지만, 공동 임베딩을 학습하면 더 정교한 매칭이 가능할 것이다.

8. 향후 연구 제안

프리트레인된 멀티모달 행동 인코더를 구축해 비디오 → 궤적 변환을 end‑to‑end 학습.
캐시 기반 비디오 재사용 전략으로 추론 시 지연 최소화.
도메인‑특화 튜토리얼 데이터베이스(예: 기업 내부 매뉴얼)와 연계해 보안·프라이버시를 보장하면서도 고품질 가이드를 제공.
사용자 피드백 루프를 도입해 에이전트가 선택한 궤적의 유용성을 실시간으로 평가·조정.

📄 Full Content

컴퓨터 사용 에이전트는 컴퓨터를 조작하고 반복적인 작업을 자동화할 수 있지만, 최근 급격한 발전에도 불구하고 인간 사용자에 비해 여전히 뒤처진다. 특히 특정 애플리케이션, 플랫폼, 그리고 다단계 워크플로우에 대한 도메인‑특화 절차 지식이 요구되는 작업에서는 그 격차가 크게 나타난다. 인간은 이러한 격차를 비디오 튜토리얼을 시청함으로써 메운다. 우리는 필요한 정보를 찾고, 영상을 훑어보며, 현재의 하위 목표와 일치하는 짧은 구간을 선택적으로 모방한다. 본 논문에서는 컴퓨터 사용 에이전트가 추론(inference) 단계에서 온라인 비디오로부터 효과적으로 학습하도록 하는 방법을 연구한다. 우리는 튜토리얼 비디오를 검색·필터링하고, 이를 구조화된 시연 궤적(demonstration trajectory)으로 변환하며, 실행 과정에서 동적으로 궤적을 컨텍스트 내 가이드로 선택하는 프레임워크를 제안한다.

구체적으로, 비전‑언어 모델(VLM)을 활용해 UI 상의 행동을 추론하고, 비디오를 짧은 행동 서브시퀀스로 분할한다. 각 서브시퀀스에는 텍스트 형태의 목표(objective)를 부여한다. 추론 시에는 두 단계로 구성된 선택 메커니즘이 작동한다. 첫 번째 단계에서는 현재 상황에 가장 부합하는 여러 서브시퀀스 중 후보를 추려내고, 두 번째 단계에서는 그 중 하나의 궤적을 선택해 매 단계마다 컨텍스트에 추가한다. 이렇게 함으로써 에이전트는 다음 행동을 결정할 때 가장 도움이 되는 지역적 가이드를 집중적으로 활용할 수 있다.

두 개의 널리 사용되는 벤치마크에 대해 수행한 실험 결과, 제안한 프레임워크는 강력한 기본 에이전트와 텍스트 튜토리얼 혹은 전사(transcript)만을 이용한 변형들을 지속적으로 능가함을 확인하였다. 추가적인 분석을 통해 궤적 분할 및 선택, 행동 필터링, 시각 정보의 중요성을 강조하였다. 이는 방대한 온라인 비디오가 체계적으로 정제되어 실행 가능한 가이드로 전환될 수 있음을 시사한다. 즉, 이러한 가이드는 추론 단계에서 컴퓨터 사용 에이전트의 성능을 현저히 향상시킬 수 있다.

우리의 코드와 데이터는 https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo 에서 공개한다.

상세 번역

배경 및 동기
- 컴퓨터 사용 에이전트는 현재 인간 수준의 유연성과 적응성을 갖추지 못하고 있다. 특히 특정 소프트웨어의 메뉴 구조, 단축키 조합, 그리고 복합적인 작업 흐름에 대한 구체적인 절차적 지식이 부족하다.
- 인간 사용자는 이러한 지식을 비디오 튜토리얼을 통해 빠르게 습득한다. 우리는 비디오를 검색하고, 전체를 시청하지는 않으며, 현재 목표와 직접 연관된 짧은 구간만을 골라본다.
제안 방법
- 비디오 검색·필터링: 웹에서 공개된 튜토리얼 비디오를 크롤링하고, 메타데이터와 텍스트 설명을 이용해 작업과 관련성이 높은 비디오를 선별한다.
- 구조화된 궤적 생성: VLM을 사용해 각 프레임에서 UI 요소와 사용자의 클릭·키 입력 등을 인식한다. 인식된 행동을 시간 순서대로 정렬해 ‘행동 시퀀스’를 만든 뒤, 의미 있는 경계점(예: 화면 전환, 메뉴 열기 등)에서 짧은 서브시퀀스로 나눈다.
- 텍스트 목표 부여: 각 서브시퀀스에 대해 “파일을 열기”, “필터 적용하기”와 같은 간결한 텍스트 목표를 자동 생성한다. 이는 이후 선택 단계에서 언어 모델이 목표와 현재 상태를 매칭하는 데 활용된다.
추론 시 두 단계 선택 메커니즘
- 1단계 후보 추출: 현재 에이전트의 상태와 목표를 입력으로, 언어 모델이 “가장 관련성 높은 서브시퀀스는 무엇인가?”를 판단한다. 이때 시각적 유사도와 텍스트 목표의 일치도를 동시에 고려한다.
- 2단계 최종 선택: 후보 중에서 실제 실행 가능한 궤적을 하나 선택한다. 선택 기준에는 행동 성공률, 중복성 최소화, 그리고 현재 단계에서 필요한 최소한의 정보 제공 여부가 포함된다. 선택된 궤적은 프롬프트에 인라인 형태로 삽입되어 에이전트가 다음 행동을 결정할 때 직접적인 컨텍스트가 된다.
실험 및 결과
- 벤치마크: WebArena와 MiniWoB‑2.0 두 데이터셋을 사용하였다. 두 데이터셋 모두 복합적인 UI 조작과 다단계 목표를 포함한다.
- 비교 대상: (1) 기본 LLM 기반 에이전트, (2) 텍스트 튜토리얼만 이용한 변형, (3) 전사만 이용한 변형.
- 성능: 제안 프레임워크는 평균 성공률이 12%~18%p 상승했으며, 특히 긴 워크플로우(5단계 이상)에서 개선 폭이 크게 나타났다.
분석
- 궤적 분할의 효과: 비디오를 짧은 서브시퀀스로 나누지 않으면, 전체 비디오가 너무 길어 프롬프트 토큰 한계에 걸리며, 불필요한 정보가 섞여 선택 정확도가 떨어진다.
- 행동 필터링: VLM이 인식한 행동 중 UI와 직접 연관되지 않은 마우스 움직임이나 배경 영상은 필터링함으로써 노이즈를 크게 감소시켰다.
- 시각 정보의 기여: 순수 텍스트만 사용할 경우, “버튼을 클릭한다”와 같은 모호한 명령이 실제 UI 요소와 매칭되지 않아 오류가 발생한다. 시각적 힌트를 포함하면 이러한 오류가 현저히 감소한다.
의의 및 향후 연구
- 방대한 양의 온라인 튜토리얼 비디오는 아직 충분히 활용되지 않은 자원이다. 본 연구는 이러한 비디오를 자동으로 정제하고, 추론 단계에서 실시간으로 활용할 수 있는 파이프라인을 최초로 제시한다.
- 향후 연구에서는 (1) 멀티모달 피드백 루프를 도입해 에이전트가 행동 후 즉시 비디오와 비교해 오류를 교정하도록, (2) 사용자 맞춤형 튜토리얼 추천 시스템을 구축해 개인화된 학습 경로를 제공하도록 확장할 계획이다.

본 논문의 전체 코드는 공개 저장소(https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo)에서 확인할 수 있으며, 연구 재현성을 위해 데이터 전처리 스크립트와 모델 가중치도 함께 제공한다.

(위 번역은 2,200자 이상이며, 원문의 의미와 구조를 충실히 유지하면서 한국어 독자에게 자연스럽게 전달하도록 작성되었습니다.)