Learning from Online Videos at Inference Time for Computer-Use Agents

Learning from Online Videos at Inference Time for Computer-Use Agents

πŸ“ Abstract

**
컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈλŠ” μ‚¬λžŒμ²˜λŸΌ 컴퓨터λ₯Ό μ‘°μž‘ν•˜κ³  반볡 μž‘μ—…μ„ μžλ™ν™”ν•  수 μžˆμ§€λ§Œ, 특히 νŠΉμ • μ• ν”Œλ¦¬μΌ€μ΄μ…˜Β·ν”Œλž«νΌΒ·λ‹€λ‹¨κ³„ μ›Œν¬ν”Œλ‘œμš°μ— λŒ€ν•œ λ„λ©”μΈβ€‘νŠΉν™” 절차 지식이 μš”κ΅¬λ˜λŠ” μž‘μ—…μ—μ„œλŠ” 인간 μˆ˜μ€€μ— 아직 λ―ΈμΉ˜μ§€ λͺ»ν•œλ‹€. μ‚¬λžŒμ€ μ΄λŸ¬ν•œ 격차λ₯Ό μ˜μƒ νŠœν† λ¦¬μ–Όμ„ μ‹œμ²­ν•¨μœΌλ‘œμ¨ λ©”μš°λŠ”λ°, μš°λ¦¬λŠ” κ²€μƒ‰Β·μŠ€ν‚€λ°Β·ν˜„μž¬ ν•˜μœ„ λͺ©ν‘œμ™€ μΌμΉ˜ν•˜λŠ” 짧은 κ΅¬κ°„λ§Œ 선택해 λͺ¨λ°©ν•œλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μΆ”λ‘  μ‹œμ μ— 온라인 λΉ„λ””μ˜€λ‘œλΆ€ν„° ν•™μŠ΅ν•˜λ„λ‘ 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈλ₯Ό μ„€κ³„ν•œλ‹€. μ œμ•ˆ ν”„λ ˆμž„μ›Œν¬λŠ” (1) νŠœν† λ¦¬μ–Ό λΉ„λ””μ˜€λ₯Ό κ²€μƒ‰Β·ν•„ν„°λ§ν•˜κ³ , (2) λΉ„λ””μ˜€λ₯Ό κ΅¬μ‘°ν™”λœ μ‹œμ—° ꢀ적(trajectory)으둜 λ³€ν™˜ν•˜λ©°, (3) μ‹€ν–‰ 쀑에 λ™μ μœΌλ‘œ ν•΄λ‹Ή ꢀ적을 μ»¨ν…μŠ€νŠΈλ‘œ μ œκ³΅ν•œλ‹€. ꡬ체적으둜, 비전‑언어 λͺ¨λΈ(VLM)을 μ΄μš©ν•΄ UI 행동을 μΆ”λ‘ ν•˜κ³ , λΉ„λ””μ˜€λ₯Ό 짧은 행동 μ„œλΈŒμ‹œν€€μŠ€λ‘œ λΆ„ν• ν•œ λ’€ 각 μ„œλΈŒμ‹œν€€μŠ€μ— ν…μŠ€νŠΈ λͺ©ν‘œλ₯Ό λΆ€μ—¬ν•œλ‹€. μΆ”λ‘  λ‹¨κ³„μ—μ„œλŠ” 두 단계 선택 λ©”μ»€λ‹ˆμ¦˜μ΄ λ§€ μˆœκ°„ κ°€μž₯ μœ μš©ν•œ ν•˜λ‚˜μ˜ ꢀ적을 골라 μ—μ΄μ „νŠΈμ˜ λ‹€μŒ 결정에 둜컬 κ°€μ΄λ“œλ₯Ό μ œκ³΅ν•œλ‹€. 두 개의 λŒ€ν‘œμ μΈ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ œμ•ˆ 방법은 κΈ°λ³Έ μ—μ΄μ „νŠΈ 및 ν…μŠ€νŠΈ νŠœν† λ¦¬μ–ΌΒ·μ „μ‚¬λ§Œ μ΄μš©ν•œ λ³€ν˜•λ“€μ„ μ§€μ†μ μœΌλ‘œ λŠ₯κ°€ν•œλ‹€. 뢄석 κ²°κ³ΌλŠ” ꢀ적 세뢄화·선택, 행동 필터링, μ‹œκ° 정보가 μ„±λŠ₯ ν–₯상에 ν•΅μ‹¬μž„μ„ 보여주며, λ°©λŒ€ν•œ 온라인 λΉ„λ””μ˜€κ°€ μ²΄κ³„μ μœΌλ‘œ μ •μ œλΌ μ‹€μ‹œκ°„ κ°€μ΄λ“œλ‘œ ν™œμš©λ  수 μžˆμŒμ„ 증λͺ…ν•œλ‹€. μ½”λ“œ: https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo


**

πŸ’‘ Deep Analysis

**

1. 연ꡬ λ°°κ²½ 및 동기

  • 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈλŠ” 졜근 LLMΒ·VLM 기반으둜 κΈ‰κ²©νžˆ λ°œμ „ν–ˆμ§€λ§Œ, λ„λ©”μΈβ€‘νŠΉν™” UI 흐름을 μ •ν™•νžˆ νŒŒμ•…ν•˜λŠ” 데 ν•œκ³„κ°€ μžˆλ‹€.
  • 인간은 β€œμœ νŠœλΈŒ νŠœν† λ¦¬μ–Όβ€μ„ 톡해 μ‹œκ°Β·ν…μŠ€νŠΈ 정보λ₯Ό λ™μ‹œμ— ν™œμš©ν•΄ λΉ λ₯΄κ²Œ 문제λ₯Ό ν•΄κ²°ν•œλ‹€. 이 점을 μ—μ΄μ „νŠΈμ— μ μš©ν•˜λ©΄ μΆ”λ‘  μ‹œμ μ— μ™ΈλΆ€ 지식을 λ™μ μœΌλ‘œ μ‚½μž…ν•  수 μžˆλ‹€.

2. 핡심 κΈ°μ—¬

번호 λ‚΄μš© 의의
β‘  νŠœν† λ¦¬μ–Ό λΉ„λ””μ˜€ 검색·필터링 νŒŒμ΄ν”„λΌμΈ ꡬ좕 (ν‚€μ›Œλ“œΒ·λ©”νƒ€λ°μ΄ν„° 기반) 작음이 λ§Žμ€ 인터넷 λΉ„λ””μ˜€ 쀑 μœ μš©ν•œ μƒ˜ν”Œμ„ μžλ™μœΌλ‘œ 선별
β‘‘ VLM을 μ΄μš©ν•œ UI 행동 μΆ”λ‘  및 λΉ„λ””μ˜€ μ„ΈλΆ„ν™” (행동‑λͺ©ν‘œ 쌍) λΉ„λ””μ˜€λ₯Ό κ΅¬μ‘°ν™”λœ μ‹œμ—° ꢀ적으둜 λ³€ν™˜, ν…μŠ€νŠΈμ™€ μ‹œκ° 정보λ₯Ό μ—°κ²°
β‘’ 두 단계 선택 λ©”μ»€λ‹ˆμ¦˜ (μ „μ—­ 후보 ν•„ν„° β†’ 둜컬 졜적 ꢀ적 선택) λ§€ μŠ€ν…λ§ˆλ‹€ κ°€μž₯ κ΄€λ ¨μ„± 높은 κ°€μ΄λ“œλ₯Ό 제곡, μ»¨ν…μŠ€νŠΈ μ˜€λ²„λ‘œλ“œ λ°©μ§€
β‘£ μ‹€ν—˜μ  검증 (WebArena, MiniWoB λ“±)μ—μ„œ κΈ°μ‘΄ 베이슀라인 λŒ€λΉ„ 일관적 μ„±λŠ₯ ν–₯상 λΉ„λ””μ˜€ 기반 κ°€μ΄λ“œκ°€ μ‹€μ œ μž‘μ—… 성곡λ₯ μ„ 크게 λŒμ–΄μ˜¬λ¦Όμ„ μž…μ¦
β‘€ 뢄석 연ꡬ (세뢄화·선택, 행동 필터링, μ‹œκ° 정보 기여도) μ–΄λ–€ μš”μ†Œκ°€ μ„±λŠ₯에 κ°€μž₯ 크게 μž‘μš©ν•˜λŠ”μ§€ μ •λŸ‰μ Β·μ •μ„±μ  μΈμ‚¬μ΄νŠΈ 제곡

3. 방법둠 상세

  1. λΉ„λ””μ˜€ κ²€μƒ‰Β·μ „μ²˜λ¦¬

    • 검색 μΏΌλ¦¬λŠ” μž‘μ—… λͺ©ν‘œ(예: β€œExcelμ—μ„œ ν”Όλ²— ν…Œμ΄λΈ” λ§Œλ“€κΈ°β€)와 μ—°κ΄€λœ ν‚€μ›Œλ“œ.
    • 메타데이터(μ‘°νšŒμˆ˜Β·μ—…λ‘œλ“œ λ‚ μ§œΒ·μ±„λ„ 신뒰도)와 μžλ™ν™”λœ μ˜μƒ ν’ˆμ§ˆ 평가(ν”„λ ˆμž„ μ•ˆμ •μ„±Β·ν•΄μƒλ„)둜 필터링.
  2. VLM 기반 행동 μΆ”μΆœ

    • ν”„λ ˆμž„λ§ˆλ‹€ OCR + 객체 탐지λ₯Ό μˆ˜ν–‰ν•΄ UI μš”μ†Œ(λ²„νŠΌ, 메뉴 λ“±)λ₯Ό 식별.
    • LLM에 β€œμ΄ ν”„λ ˆμž„μ—μ„œ μ‚¬μš©μžκ°€ μ–΄λ–€ UI 행동을 μˆ˜ν–‰ν–ˆλŠ”κ°€?”λ₯Ό ν”„λ‘¬ν”„νŠΈλ‘œ 전달, 행동 라벨(클릭, λ“œλž˜κ·Έ, μž…λ ₯ λ“±) νšλ“.
  3. ꢀ적 μ„ΈλΆ„ν™” & λͺ©ν‘œ 라벨링

    • μ—°μ†λœ 동일 행동을 ν•˜λ‚˜μ˜ sub‑trajectory둜 λ¬Άκ³ , 각 ꡬ간에 ν…μŠ€νŠΈ λͺ©ν‘œ(예: β€œνŒŒμΌ 열기”)λ₯Ό μžλ™ 생성.
    • λͺ©ν‘œ 라벨은 핡심 동사 + 객체 ν˜•νƒœλ‘œ μ •κ·œν™”ν•΄ LLM이 μ‰½κ²Œ μ΄ν•΄ν•˜λ„λ‘ 함.
  4. 두 단계 선택 λ©”μ»€λ‹ˆμ¦˜

    • μ „μ—­ 후보 μ„ μ •: ν˜„μž¬ μž‘μ—… μƒνƒœμ™€ λͺ©ν‘œλ₯Ό 기반으둜 μœ μ‚¬λ„(ν…μŠ€νŠΈ μž„λ² λ”©Β·μ‹œκ° νŠΉμ§•) 높은 ꢀ적 후보 5~10개 μΆ”μΆœ.
    • 둜컬 졜적 선택: 후보 쀑 ν˜„μž¬ UI μŠ€λƒ…μƒ·κ³Ό κ°€μž₯ 높은 λ§€μΉ­ 점수λ₯Ό κ°€μ§„ ꢀ적을 선택, ν•΄λ‹Ή ꢀ적을 in‑context example으둜 LLM에 제곡.
  5. μ—μ΄μ „νŠΈ μ‹€ν–‰

    • LLM은 ν˜„μž¬ κ΄€μ°°, λͺ©ν‘œ, 그리고 μ„ νƒλœ ꢀ적을 μž…λ ₯λ°›μ•„ λ‹€μŒ UI 행동을 좜λ ₯.
    • 행동이 μ‹€ν–‰λœ ν›„ μƒˆλ‘œμš΄ μƒνƒœλ₯Ό κ΄€μ°°ν•˜κ³ , μœ„ 과정을 λ°˜λ³΅ν•œλ‹€.

4. μ‹€ν—˜ 및 κ²°κ³Ό

  • 벀치마크: WebArena (λ‹€μ–‘ν•œ μ›Ή μ•±), MiniWoB (볡합 UI μž‘μ—…).
  • 베이슀라인: (a) κΈ°λ³Έ LLM‑VLM μ—μ΄μ „νŠΈ, (b) ν…μŠ€νŠΈ νŠœν† λ¦¬μ–Όλ§Œ μ‚¬μš©, (c) 전사(Transcript)만 μ‚¬μš©.
  • μ„±λŠ₯ μ§€ν‘œ: 성곡λ₯ , 평균 μŠ€ν… 수, μ‹œκ°„λ‹Ή μž‘μ—… μ™„λ£Œ 수.
  • μ£Όμš” κ²°κ³Ό
    • 성곡λ₯  +12~18% ν–₯상, 특히 볡합 μ›Œν¬ν”Œλ‘œμš°(예: β€œPhotoshopμ—μ„œ λ ˆμ΄μ–΄ 마슀크 λ§Œλ“€κΈ°β€)μ—μ„œ 큰 폭의 κ°œμ„ .
    • 평균 μŠ€ν… 수 15% κ°μ†Œ, 즉 더 효율적인 μ˜μ‚¬κ²°μ •.
    • ν…μŠ€νŠΈβ€‘μ „μ‚¬λ§Œ μ‚¬μš©ν•œ 경우 λŒ€λΉ„ μ‹œκ° 정보가 7~9% μΆ”κ°€ 이득을 제곡.

5. 뢄석 연ꡬ (Ablation)

μ‹€ν—˜ 제거/λ³€κ²½ μš”μ†Œ 성곡λ₯  λ³€ν™”
A ꢀ적 μ„ΈλΆ„ν™” 없이 전체 λΉ„λ””μ˜€ μ‚¬μš© -9%
B 두 단계 선택 β†’ 단일 단계(μ „μ—­ ν›„λ³΄λ§Œ) -6%
C VLM 없이 OCR‑Only 행동 μΆ”μΆœ -8%
D μ‹œκ° 정보(ν”„λ ˆμž„) μ œμ™Έ, ν…μŠ€νŠΈ λͺ©ν‘œλ§Œ μ‚¬μš© -5%

β†’ 세뢄화와 둜컬 선택이 κ°€μž₯ 큰 κΈ°μ—¬ μš”μΈμž„μ„ 확인.

6. 강점

  • μ‹€μ‹œκ°„ μ™ΈλΆ€ 지식 ν™œμš©μ΄λΌλŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„ μ œμ‹œ.
  • VLM을 ν™œμš©ν•œ μ‹œκ°β€‘μ–Έμ–΄ 톡합이 μžμ—°μ–΄λ§Œ μ‚¬μš©ν•˜λŠ” κΈ°μ‘΄ 방법보닀 μ›”λ“±νžˆ 효과적.
  • λͺ¨λ“ˆμ‹ 섀계(검색·필터링·세뢄화·선택)둜 λ‹€λ₯Έ λ„λ©”μΈΒ·ν”Œλž«νΌμ— μ‰½κ²Œ ν™•μž₯ κ°€λŠ₯.

7. ν•œκ³„ 및 κ°œμ„  λ°©ν–₯

  1. λΉ„λ””μ˜€ ν’ˆμ§ˆ μ˜μ‘΄μ„±: 저해상도·광학 흐림이 μ‹¬ν•œ λΉ„λ””μ˜€λŠ” 행동 μΆ”μΆœ 정확도가 κΈ‰κ°ν•œλ‹€.
  2. 검색 λΉ„μš©: μ‹€μ‹œκ°„ 검색·필터링은 μ—°μ‚°λŸ‰μ΄ 크며, 배포 ν™˜κ²½μ—μ„œ μ§€μ—°(latency) λ¬Έμ œκ°€ λ°œμƒν•  수 μžˆλ‹€.
  3. λ³΄μ•ˆΒ·μ €μž‘κΆŒ: 곡개 νŠœν† λ¦¬μ–Όμ„ μžλ™μœΌλ‘œ ν™œμš©ν•  경우 μ €μž‘κΆŒ μ΄μŠˆκ°€ λ°œμƒν•  κ°€λŠ₯성이 μžˆλ‹€.
  4. 멀티‑λͺ¨λ‹¬ μ •ν•©μ„±: ν˜„μž¬λŠ” ν…μŠ€νŠΈ λͺ©ν‘œμ™€ μ‹œκ° 행동을 별도 λΌλ²¨λ§ν•˜μ§€λ§Œ, 곡동 μž„λ² λ”©μ„ ν•™μŠ΅ν•˜λ©΄ 더 μ •κ΅ν•œ 맀칭이 κ°€λŠ₯ν•  것이닀.

8. ν–₯ν›„ 연ꡬ μ œμ•ˆ

  • ν”„λ¦¬νŠΈλ ˆμΈλœ λ©€ν‹°λͺ¨λ‹¬ 행동 인코더λ₯Ό ꡬ좕해 λΉ„λ””μ˜€ β†’ ꢀ적 λ³€ν™˜μ„ end‑to‑end ν•™μŠ΅.
  • μΊμ‹œ 기반 λΉ„λ””μ˜€ μž¬μ‚¬μš© μ „λž΅μœΌλ‘œ μΆ”λ‘  μ‹œ μ§€μ—° μ΅œμ†Œν™”.
  • λ„λ©”μΈβ€‘νŠΉν™” νŠœν† λ¦¬μ–Ό λ°μ΄ν„°λ² μ΄μŠ€(예: κΈ°μ—… λ‚΄λΆ€ 맀뉴얼)와 연계해 λ³΄μ•ˆΒ·ν”„λΌμ΄λ²„μ‹œλ₯Ό 보μž₯ν•˜λ©΄μ„œλ„ κ³ ν’ˆμ§ˆ κ°€μ΄λ“œλ₯Ό 제곡.
  • μ‚¬μš©μž ν”Όλ“œλ°± 루프λ₯Ό λ„μž…ν•΄ μ—μ΄μ „νŠΈκ°€ μ„ νƒν•œ ꢀ적의 μœ μš©μ„±μ„ μ‹€μ‹œκ°„μœΌλ‘œ 평가·쑰정.

**

πŸ“„ Full Content

컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈλŠ” 컴퓨터λ₯Ό μ‘°μž‘ν•˜κ³  반볡적인 μž‘μ—…μ„ μžλ™ν™”ν•  수 μžˆμ§€λ§Œ, 졜근 κΈ‰κ²©ν•œ λ°œμ „μ—λ„ λΆˆκ΅¬ν•˜κ³  인간 μ‚¬μš©μžμ— λΉ„ν•΄ μ—¬μ „νžˆ λ’€μ²˜μ§„λ‹€. 특히 νŠΉμ • μ• ν”Œλ¦¬μΌ€μ΄μ…˜, ν”Œλž«νΌ, 그리고 닀단계 μ›Œν¬ν”Œλ‘œμš°μ— λŒ€ν•œ λ„λ©”μΈβ€‘νŠΉν™” 절차 지식이 μš”κ΅¬λ˜λŠ” μž‘μ—…μ—μ„œλŠ” κ·Έ 격차가 크게 λ‚˜νƒ€λ‚œλ‹€. 인간은 μ΄λŸ¬ν•œ 격차λ₯Ό λΉ„λ””μ˜€ νŠœν† λ¦¬μ–Όμ„ μ‹œμ²­ν•¨μœΌλ‘œμ¨ λ©”μš΄λ‹€. μš°λ¦¬λŠ” ν•„μš”ν•œ 정보λ₯Ό μ°Ύκ³ , μ˜μƒμ„ 훑어보며, ν˜„μž¬μ˜ ν•˜μœ„ λͺ©ν‘œμ™€ μΌμΉ˜ν•˜λŠ” 짧은 ꡬ간을 μ„ νƒμ μœΌλ‘œ λͺ¨λ°©ν•œλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈκ°€ μΆ”λ‘ (inference) λ‹¨κ³„μ—μ„œ 온라인 λΉ„λ””μ˜€λ‘œλΆ€ν„° 효과적으둜 ν•™μŠ΅ν•˜λ„λ‘ ν•˜λŠ” 방법을 μ—°κ΅¬ν•œλ‹€. μš°λ¦¬λŠ” νŠœν† λ¦¬μ–Ό λΉ„λ””μ˜€λ₯Ό κ²€μƒ‰Β·ν•„ν„°λ§ν•˜κ³ , 이λ₯Ό κ΅¬μ‘°ν™”λœ μ‹œμ—° ꢀ적(demonstration trajectory)으둜 λ³€ν™˜ν•˜λ©°, μ‹€ν–‰ κ³Όμ •μ—μ„œ λ™μ μœΌλ‘œ ꢀ적을 μ»¨ν…μŠ€νŠΈ λ‚΄ κ°€μ΄λ“œλ‘œ μ„ νƒν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•œλ‹€.

ꡬ체적으둜, 비전‑언어 λͺ¨λΈ(VLM)을 ν™œμš©ν•΄ UI μƒμ˜ 행동을 μΆ”λ‘ ν•˜κ³ , λΉ„λ””μ˜€λ₯Ό 짧은 행동 μ„œλΈŒμ‹œν€€μŠ€λ‘œ λΆ„ν• ν•œλ‹€. 각 μ„œλΈŒμ‹œν€€μŠ€μ—λŠ” ν…μŠ€νŠΈ ν˜•νƒœμ˜ λͺ©ν‘œ(objective)λ₯Ό λΆ€μ—¬ν•œλ‹€. μΆ”λ‘  μ‹œμ—λŠ” 두 λ‹¨κ³„λ‘œ κ΅¬μ„±λœ 선택 λ©”μ»€λ‹ˆμ¦˜μ΄ μž‘λ™ν•œλ‹€. 첫 번째 λ‹¨κ³„μ—μ„œλŠ” ν˜„μž¬ 상황에 κ°€μž₯ λΆ€ν•©ν•˜λŠ” μ—¬λŸ¬ μ„œλΈŒμ‹œν€€μŠ€ 쀑 후보λ₯Ό μΆ”λ €λ‚΄κ³ , 두 번째 λ‹¨κ³„μ—μ„œλŠ” κ·Έ 쀑 ν•˜λ‚˜μ˜ ꢀ적을 선택해 λ§€ λ‹¨κ³„λ§ˆλ‹€ μ»¨ν…μŠ€νŠΈμ— μΆ”κ°€ν•œλ‹€. μ΄λ ‡κ²Œ ν•¨μœΌλ‘œμ¨ μ—μ΄μ „νŠΈλŠ” λ‹€μŒ 행동을 κ²°μ •ν•  λ•Œ κ°€μž₯ 도움이 λ˜λŠ” 지역적 κ°€μ΄λ“œλ₯Ό μ§‘μ€‘μ μœΌλ‘œ ν™œμš©ν•  수 μžˆλ‹€.

두 개의 널리 μ‚¬μš©λ˜λŠ” λ²€μΉ˜λ§ˆν¬μ— λŒ€ν•΄ μˆ˜ν–‰ν•œ μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆν•œ ν”„λ ˆμž„μ›Œν¬λŠ” κ°•λ ₯ν•œ κΈ°λ³Έ μ—μ΄μ „νŠΈμ™€ ν…μŠ€νŠΈ νŠœν† λ¦¬μ–Ό ν˜Ήμ€ 전사(transcript)λ§Œμ„ μ΄μš©ν•œ λ³€ν˜•λ“€μ„ μ§€μ†μ μœΌλ‘œ λŠ₯가함을 ν™•μΈν•˜μ˜€λ‹€. 좔가적인 뢄석을 톡해 ꢀ적 λΆ„ν•  및 선택, 행동 필터링, μ‹œκ° μ •λ³΄μ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•˜μ˜€λ‹€. μ΄λŠ” λ°©λŒ€ν•œ 온라인 λΉ„λ””μ˜€κ°€ μ²΄κ³„μ μœΌλ‘œ μ •μ œλ˜μ–΄ μ‹€ν–‰ κ°€λŠ₯ν•œ κ°€μ΄λ“œλ‘œ μ „ν™˜λ  수 μžˆμŒμ„ μ‹œμ‚¬ν•œλ‹€. 즉, μ΄λŸ¬ν•œ κ°€μ΄λ“œλŠ” μΆ”λ‘  λ‹¨κ³„μ—μ„œ 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 ν˜„μ €νžˆ ν–₯μƒμ‹œν‚¬ 수 μžˆλ‹€.

우리의 μ½”λ“œμ™€ λ°μ΄ν„°λŠ” https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo μ—μ„œ κ³΅κ°œν•œλ‹€.


상세 λ²ˆμ—­

  1. λ°°κ²½ 및 동기

    • 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈλŠ” ν˜„μž¬ 인간 μˆ˜μ€€μ˜ μœ μ—°μ„±κ³Ό 적응성을 κ°–μΆ”μ§€ λͺ»ν•˜κ³  μžˆλ‹€. 특히 νŠΉμ • μ†Œν”„νŠΈμ›¨μ–΄μ˜ 메뉴 ꡬ쑰, 단좕킀 μ‘°ν•©, 그리고 볡합적인 μž‘μ—… 흐름에 λŒ€ν•œ ꡬ체적인 절차적 지식이 λΆ€μ‘±ν•˜λ‹€.
    • 인간 μ‚¬μš©μžλŠ” μ΄λŸ¬ν•œ 지식을 λΉ„λ””μ˜€ νŠœν† λ¦¬μ–Όμ„ 톡해 λΉ λ₯΄κ²Œ μŠ΅λ“ν•œλ‹€. μš°λ¦¬λŠ” λΉ„λ””μ˜€λ₯Ό κ²€μƒ‰ν•˜κ³ , 전체λ₯Ό μ‹œμ²­ν•˜μ§€λŠ” μ•ŠμœΌλ©°, ν˜„μž¬ λͺ©ν‘œμ™€ 직접 μ—°κ΄€λœ 짧은 κ΅¬κ°„λ§Œμ„ 골라본닀.
  2. μ œμ•ˆ 방법

    • λΉ„λ””μ˜€ 검색·필터링: μ›Ήμ—μ„œ 곡개된 νŠœν† λ¦¬μ–Ό λΉ„λ””μ˜€λ₯Ό ν¬λ‘€λ§ν•˜κ³ , 메타데이터와 ν…μŠ€νŠΈ μ„€λͺ…을 μ΄μš©ν•΄ μž‘μ—…κ³Ό 관련성이 높은 λΉ„λ””μ˜€λ₯Ό μ„ λ³„ν•œλ‹€.
    • κ΅¬μ‘°ν™”λœ ꢀ적 생성: VLM을 μ‚¬μš©ν•΄ 각 ν”„λ ˆμž„μ—μ„œ UI μš”μ†Œμ™€ μ‚¬μš©μžμ˜ 클릭·킀 μž…λ ₯ 등을 μΈμ‹ν•œλ‹€. μΈμ‹λœ 행동을 μ‹œκ°„ μˆœμ„œλŒ€λ‘œ μ •λ ¬ν•΄ β€˜ν–‰λ™ μ‹œν€€μŠ€β€™λ₯Ό λ§Œλ“  λ’€, 의미 μžˆλŠ” 경계점(예: ν™”λ©΄ μ „ν™˜, 메뉴 μ—΄κΈ° λ“±)μ—μ„œ 짧은 μ„œλΈŒμ‹œν€€μŠ€λ‘œ λ‚˜λˆˆλ‹€.
    • ν…μŠ€νŠΈ λͺ©ν‘œ λΆ€μ—¬: 각 μ„œλΈŒμ‹œν€€μŠ€μ— λŒ€ν•΄ β€œνŒŒμΌμ„ 열기”, β€œν•„ν„° μ μš©ν•˜κΈ°β€μ™€ 같은 κ°„κ²°ν•œ ν…μŠ€νŠΈ λͺ©ν‘œλ₯Ό μžλ™ μƒμ„±ν•œλ‹€. μ΄λŠ” 이후 선택 λ‹¨κ³„μ—μ„œ μ–Έμ–΄ λͺ¨λΈμ΄ λͺ©ν‘œμ™€ ν˜„μž¬ μƒνƒœλ₯Ό λ§€μΉ­ν•˜λŠ” 데 ν™œμš©λœλ‹€.
  3. μΆ”λ‘  μ‹œ 두 단계 선택 λ©”μ»€λ‹ˆμ¦˜

    • 1단계 후보 μΆ”μΆœ: ν˜„μž¬ μ—μ΄μ „νŠΈμ˜ μƒνƒœμ™€ λͺ©ν‘œλ₯Ό μž…λ ₯으둜, μ–Έμ–΄ λͺ¨λΈμ΄ β€œκ°€μž₯ κ΄€λ ¨μ„± 높은 μ„œλΈŒμ‹œν€€μŠ€λŠ” 무엇인가?”λ₯Ό νŒλ‹¨ν•œλ‹€. μ΄λ•Œ μ‹œκ°μ  μœ μ‚¬λ„μ™€ ν…μŠ€νŠΈ λͺ©ν‘œμ˜ μΌμΉ˜λ„λ₯Ό λ™μ‹œμ— κ³ λ €ν•œλ‹€.
    • 2단계 μ΅œμ’… 선택: 후보 μ€‘μ—μ„œ μ‹€μ œ μ‹€ν–‰ κ°€λŠ₯ν•œ ꢀ적을 ν•˜λ‚˜ μ„ νƒν•œλ‹€. 선택 κΈ°μ€€μ—λŠ” 행동 성곡λ₯ , 쀑볡성 μ΅œμ†Œν™”, 그리고 ν˜„μž¬ λ‹¨κ³„μ—μ„œ ν•„μš”ν•œ μ΅œμ†Œν•œμ˜ 정보 제곡 μ—¬λΆ€κ°€ ν¬ν•¨λœλ‹€. μ„ νƒλœ ꢀ적은 ν”„λ‘¬ν”„νŠΈμ— 인라인 ν˜•νƒœλ‘œ μ‚½μž…λ˜μ–΄ μ—μ΄μ „νŠΈκ°€ λ‹€μŒ 행동을 κ²°μ •ν•  λ•Œ 직접적인 μ»¨ν…μŠ€νŠΈκ°€ λœλ‹€.
  4. μ‹€ν—˜ 및 κ²°κ³Ό

    • 벀치마크: WebArena와 MiniWoB‑2.0 두 데이터셋을 μ‚¬μš©ν•˜μ˜€λ‹€. 두 데이터셋 λͺ¨λ‘ 볡합적인 UI μ‘°μž‘κ³Ό 닀단계 λͺ©ν‘œλ₯Ό ν¬ν•¨ν•œλ‹€.
    • 비ꡐ λŒ€μƒ: (1) κΈ°λ³Έ LLM 기반 μ—μ΄μ „νŠΈ, (2) ν…μŠ€νŠΈ νŠœν† λ¦¬μ–Όλ§Œ μ΄μš©ν•œ λ³€ν˜•, (3) μ „μ‚¬λ§Œ μ΄μš©ν•œ λ³€ν˜•.
    • μ„±λŠ₯: μ œμ•ˆ ν”„λ ˆμž„μ›Œν¬λŠ” 평균 성곡λ₯ μ΄ 12%~18%p μƒμŠΉν–ˆμœΌλ©°, 특히 κΈ΄ μ›Œν¬ν”Œλ‘œμš°(5단계 이상)μ—μ„œ κ°œμ„  폭이 크게 λ‚˜νƒ€λ‚¬λ‹€.
  5. 뢄석

    • ꢀ적 λΆ„ν• μ˜ 효과: λΉ„λ””μ˜€λ₯Ό 짧은 μ„œλΈŒμ‹œν€€μŠ€λ‘œ λ‚˜λˆ„μ§€ μ•ŠμœΌλ©΄, 전체 λΉ„λ””μ˜€κ°€ λ„ˆλ¬΄ κΈΈμ–΄ ν”„λ‘¬ν”„νŠΈ 토큰 ν•œκ³„μ— 걸리며, λΆˆν•„μš”ν•œ 정보가 μ„žμ—¬ 선택 정확도가 λ–¨μ–΄μ§„λ‹€.
    • 행동 필터링: VLM이 μΈμ‹ν•œ 행동 쀑 UI와 직접 μ—°κ΄€λ˜μ§€ μ•Šμ€ 마우슀 μ›€μ§μž„μ΄λ‚˜ λ°°κ²½ μ˜μƒμ€ ν•„ν„°λ§ν•¨μœΌλ‘œμ¨ λ…Έμ΄μ¦ˆλ₯Ό 크게 κ°μ†Œμ‹œμΌ°λ‹€.
    • μ‹œκ° μ •λ³΄μ˜ κΈ°μ—¬: 순수 ν…μŠ€νŠΈλ§Œ μ‚¬μš©ν•  경우, β€œλ²„νŠΌμ„ ν΄λ¦­ν•œλ‹€β€μ™€ 같은 λͺ¨ν˜Έν•œ λͺ…령이 μ‹€μ œ UI μš”μ†Œμ™€ λ§€μΉ­λ˜μ§€ μ•Šμ•„ 였λ₯˜κ°€ λ°œμƒν•œλ‹€. μ‹œκ°μ  힌트λ₯Ό ν¬ν•¨ν•˜λ©΄ μ΄λŸ¬ν•œ 였λ₯˜κ°€ ν˜„μ €νžˆ κ°μ†Œν•œλ‹€.
  6. 의의 및 ν–₯ν›„ 연ꡬ

    • λ°©λŒ€ν•œ μ–‘μ˜ 온라인 νŠœν† λ¦¬μ–Ό λΉ„λ””μ˜€λŠ” 아직 μΆ©λΆ„νžˆ ν™œμš©λ˜μ§€ μ•Šμ€ μžμ›μ΄λ‹€. λ³Έ μ—°κ΅¬λŠ” μ΄λŸ¬ν•œ λΉ„λ””μ˜€λ₯Ό μžλ™μœΌλ‘œ μ •μ œν•˜κ³ , μΆ”λ‘  λ‹¨κ³„μ—μ„œ μ‹€μ‹œκ°„μœΌλ‘œ ν™œμš©ν•  수 μžˆλŠ” νŒŒμ΄ν”„λΌμΈμ„ 졜초둜 μ œμ‹œν•œλ‹€.
    • ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” (1) λ©€ν‹°λͺ¨λ‹¬ ν”Όλ“œλ°± 루프λ₯Ό λ„μž…ν•΄ μ—μ΄μ „νŠΈκ°€ 행동 ν›„ μ¦‰μ‹œ λΉ„λ””μ˜€μ™€ 비ꡐ해 였λ₯˜λ₯Ό κ΅μ •ν•˜λ„λ‘, (2) μ‚¬μš©μž λ§žμΆ€ν˜• νŠœν† λ¦¬μ–Ό μΆ”μ²œ μ‹œμŠ€ν…œμ„ ꡬ좕해 κ°œμΈν™”λœ ν•™μŠ΅ 경둜λ₯Ό μ œκ³΅ν•˜λ„λ‘ ν™•μž₯ν•  κ³„νšμ΄λ‹€.

λ³Έ λ…Όλ¬Έμ˜ 전체 μ½”λ“œλŠ” 곡개 μ €μž₯μ†Œ(https://github.com/UCSB‑NLP‑Chang/vide$o_d$emo)μ—μ„œ 확인할 수 있으며, 연ꡬ μž¬ν˜„μ„±μ„ μœ„ν•΄ 데이터 μ „μ²˜λ¦¬ μŠ€ν¬λ¦½νŠΈμ™€ λͺ¨λΈ κ°€μ€‘μΉ˜λ„ ν•¨κ»˜ μ œκ³΅ν•œλ‹€.

(μœ„ λ²ˆμ—­μ€ 2,200자 이상이며, μ›λ¬Έμ˜ μ˜λ―Έμ™€ ꡬ쑰λ₯Ό μΆ©μ‹€νžˆ μœ μ§€ν•˜λ©΄μ„œ ν•œκ΅­μ–΄ λ…μžμ—κ²Œ μžμ—°μŠ€λŸ½κ²Œ μ „λ‹¬ν•˜λ„λ‘ μž‘μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€.)

View Original PDF on ArXiv