HIDAgent: 저비용 하드웨어로 UI 에이전트를 모든 디바이스에 연결하는 혁신 툴킷

HIDAgent: 저비용 하드웨어로 UI 에이전트를 모든 디바이스에 연결하는 혁신 툴킷
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HIDAgent는 $30 이하의 오프‑더‑쉘프 부품(Raspberry Pi Pico, HDMI‑to‑USB 캡처 카드, CH340 시리얼 브리지)과 파이썬 라이브러리를 결합해, 화면을 픽셀 단위로 캡처하고 HID(키보드·마우스) 입력을 에뮬레이트함으로써 모바일·데스크톱·VR 등 다양한 HID‑호환 장치를 원격으로 제어할 수 있게 한다. 논문은 다섯 가지 시나리오를 통해 툴킷의 범용성 및 연구 잠재력을 입증한다.

상세 분석

본 논문은 UI 에이전트가 화면을 시각적으로 이해하고 인간과 유사한 입력을 수행하는 전형적인 흐름을 유지하면서, 제어 인터페이스를 기존 OS‑전용 API나 VNC와 같은 소프트웨어 기반 솔루션에서 완전히 하드웨어 기반 HID 에뮬레이션으로 전환한다는 점에서 혁신적이다. 핵심 하드웨어는 세 가지 부품으로 구성된다. 첫째, RP2040 기반 Raspberry Pi Pico는 USB‑C 포트를 통해 HID 디바이스(키보드·마우스) 역할을 수행한다. 둘째, HDMI‑to‑USB 캡처 카드는 대상 디바이스의 화면 신호를 1080p 이미지 스트림으로 변환해 제어 컴퓨터에 전달한다. 셋째, CH340 USB‑to‑Serial 브리지는 제어 컴퓨터와 Pico 사이에 저지연 직렬 통신을 제공한다. 이 구조는 Wi‑Fi 의존성을 배제하고, 동일 네트워크에 있지 않은 환경에서도 안정적인 연결을 보장한다.

소프트웨어 스택은 Python 기반 HIDAgent.py 라이브러리를 중심으로 설계되었다. get_screenshot() 함수는 캡처 카드에서 프레임을 읽어 Pillow 이미지 객체로 반환하고, move_mouse(), click_mouse(), type(), keypress() 등은 JSON 형식의 명령을 직렬로 Pico에 전송한다. Pico는 CircuitPython으로 구현된 펌웨어에서 명령을 파싱하고, HID 프로토콜에 맞춰 적절한 레포트(키보드·마우스 이벤트)를 생성한다. 명령 전송 간 0.1 초 정도의 인위적 딜레이를 삽입해 인간 입력 속도와 일치시킴으로써 타깃 OS가 이벤트를 무시하거나 오동작하는 현상을 방지한다.

특히 화면 좌표와 HID 좌표 사이의 매핑을 자동 보정하는 캘리브레이션 절차가 눈에 띈다. 초기 연결 시 마우스를 두 지점(100,100)·(200,100)으로 이동시키고, 각 단계에서 캡처된 스크린샷의 픽셀 변화를 분석해 실제 화면상의 커서 이동 거리를 추정한다. 이때 시계 초침 등 배경 변화도 잡히므로, 수평·수직 이동을 각각 별도로 측정해 노이즈를 최소화한다. 보정이 완료되면 이후 좌표 지정 명령은 정확히 목표 위치에 마우스를 이동시킬 수 있다.

AI 기반 UI 요소 인식도 지원한다. recognize_gui_elements()는 Omniparser를 래핑해 스크린샷에서 버튼·텍스트·아이콘 등을 탐지하고 JSON 형태로 반환한다. llm_screenshot_query()는 이러한 탐지 결과와 이미지 데이터를 로컬 Gemma‑27B 모델에 전달해 자연어 질의에 대한 응답을 생성한다. 이를 통해 개발자는 “‘설정’ 버튼을 클릭하라”와 같은 고수준 명령을 직접 코딩하지 않고, LLM이 자동으로 좌표를 도출하도록 할 수 있다.

다섯 가지 프로토타입(Helpful Observer, Extensible UI Agent 등)은 모바일(iOS·Android), Windows, macOS, Linux, VR 헤드셋 등 이질적인 플랫폼에서 동일한 HIDAgent를 활용함으로써, 에이전트 코드와 메모리를 공유하면서도 물리적으로 분리된 제어가 가능함을 증명한다. 이는 사용자가 신뢰하지 못하는 디바이스에 에이전트를 설치하지 않아도 되고, 기업 보안 정책으로 소프트웨어 설치가 금지된 환경에서도 에이전트를 동작시킬 수 있다는 실용적 장점을 제공한다.

전반적으로 HIDAgent는 저비용, 오픈소스, 크로스플랫폼이라는 세 축을 모두 만족시키며, UI 에이전트 연구에서 “에이전트와 디바이스의 물리적 분리”라는 새로운 연구 패러다임을 제시한다. 향후 고해상도 캡처, 멀티 디스플레이 지원, 실시간 비디오 스트리밍 기반 피드백 루프 등으로 확장한다면, 인간‑에이전트 인터랙션의 자연스러움과 안전성을 크게 향상시킬 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기