모바일 에이전트를 위한 호기심 기반 지식 검색과 AppCard 통합
초록
본 논문은 모바일 에이전트가 실행 중에 불확실성을 호기심 점수로 정량화하고, 일정 임계값을 초과하면 외부 문서·코드·과거 트래젝터리를 검색해 구조화된 AppCard를 생성·활용함으로써 계획 신뢰성을 높이는 프레임워크를 제안한다. AndroidWorld 벤치마크에서 평균 6%p 상승, GPT‑5와 결합 시 88.8% 성공률을 기록하였다.
상세 분석
이 연구는 모바일 GUI 자동화에서 에이전트가 직면하는 ‘지식 사각지대’를 메타 인지적 호기심 메커니즘으로 해결한다. 저자들은 에이전트의 상태‑행동 전이 과정에서 사전 예측 분포 P와 실제 관찰 후 후방 분포 Q 사이의 차이를 Jensen‑Shannon divergence(조정된 JS)로 측정해 ‘정보 이득’ I를 도출하고, 이를 누적 불확실성 U(app)으로 집계한다. 임계값 τ를 초과하면 ‘호기심 게이트’가 작동해 웹 문서, Git 저장소, 과거 실행 로그 등 이질적인 외부 소스를 질의한다. 검색된 텍스트는 기능 의미, 파라미터 규약, UI 매핑, 상호작용 패턴을 포함하는 구조화된 AppCard로 변환된다. AppCard는 버전‑인식 모듈형 설계라 필요 부분만 선택적으로 삽입되며, 컨텍스트 윈도우 오버플로우를 방지한다. 실행 파이프라인은 (1) 호기심 점수 계산 → (2) 외부 지식 검색 → (3) AppCard 생성·업데이트 → (4) 에이전트 플래너에 주입 → (5) 행동 선택의 순환으로 구성된다.
핵심 기술적 기여는 다음과 같다. 첫째, Latent Bayesian Surprise를 토큰‑레벨 확률 분포에 적용해 실시간 호기심 점수를 산출함으로써 기존 RL‑style 내재 보상보다 가볍고 해석 가능한 트리거를 제공한다. 둘째, ‘Top‑K + OTHER’ 토큰 집합을 이용해 긴 꼬리 확률을 조정함으로써 희소 토큰에 의한 과도한 발산을 억제하고, λ 파라미터로 조정 가능한 불확실성 가중치를 도입한다. 셋째, AppCard의 설계는 ‘기능‑중심’ 메타데이터와 ‘버전‑스냅샷’ 정보를 결합해 UI 변화에 강인한 지식 베이스를 만든다. 마지막으로, 다양한 백본(LLaMA‑2, GPT‑4, GPT‑5)과 결합 실험을 통해 호기심‑구동 검색이 백본 성능에 비례해 이득을 제공함을 입증한다.
실험 결과는 AndroidWorld 527개의 복합 태스크에서 평균 성공률이 6%p 상승했으며, 특히 다단계·앱 간 전환이 요구되는 시나리오에서 큰 폭의 개선을 보였다. GPT‑5 기반 백본과 결합했을 때 88.8%라는 새로운 SOTA를 달성했으며, Ablation study는 (a) 호기심 점수 없이 단순 검색, (b) 검색만 수행할 경우 성능 저하를 확인해 호기심‑트리거와 AppCard 통합의 시너지 효과를 강조한다. 케이스 스터디에서는 AppCard가 모호한 UI 라벨을 명확히 해 주고, 불필요한 탐색 루프를 제거해 실행 트래젝터리를 30% 가량 단축시키는 모습을 보여준다.
이러한 접근은 모바일 에이전트가 사전 학습된 파라미터에만 의존하지 않고, 실행 중 실시간으로 외부 지식을 흡수함으로써 ‘지식 격차’를 메우는 새로운 패러다임을 제시한다. 향후 연구는 (1) 호기심 점수의 다중 모달(시각·음성) 확장, (2) 대규모 지식 베이스와의 지속적 동기화, (3) 사용자 프라이버시를 고려한 안전한 검색 메커니즘 구축 등을 통해 보다 일반화된 모바일 자동화 시스템으로 발전시킬 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기