멀티모달 OS 에이전트를 노리는 악성 이미지 패치 공격
초록
본 논문은 스크린샷을 기반으로 동작하는 OS 에이전트에 대해, 화면에 삽입된 작은 악성 이미지 패치(MIP)가 에이전트를 오도해 민감한 데이터 탈취 등 위험한 API 호출을 수행하도록 만드는 새로운 공격 벡터를 제시한다. MIP는 인간에게는 거의 보이지 않으며, 다양한 사용자 프롬프트와 화면 레이아웃에 일반화된다. 실험을 통해 여러 최신 OS 에이전트에 대한 성공률을 입증하고, 현재 방어 메커니즘이 이러한 시각적 공격을 탐지하기 어렵다는 점을 강조한다.
상세 분석
이 논문은 최근 급부상하고 있는 멀티모달 OS 에이전트의 구조적 특성을 면밀히 분석하고, 그 특성을 악용한 새로운 공격 방법인 Malicious Image Patch(MIP)를 설계한다. OS 에이전트는 크게 세 가지 모듈로 구성된다. 첫 번째는 스크린 파서(g)로, 화면 이미지를 입력받아 바운딩 박스와 텍스트 설명을 포함한 구조화된 정보를 생성한다. 두 번째는 비전‑언어 모델(VLM, fθ)이며, 사용자 프롬프트, 시스템 프롬프트, 메모리, 파서가 만든 SOM(text) 및 annotated screenshot를 결합해 다음 행동을 텍스트 토큰 형태로 출력한다. 마지막으로 API 매핑 모듈(a)은 VLM의 출력 토큰을 실제 OS API 호출(키보드 입력, 마우스 클릭 등)로 변환한다. 이러한 파이프라인은 이미지 → 파싱 → 텍스트 → API 순으로 흐르며, 각 단계마다 비선형 변환과 정규화가 존재한다.
공격자는 화면의 제한된 영역(R)만을 제어할 수 있다는 현실적 제약을 두고, 해당 영역에 인간이 인식하기 어려운 작은 픽셀 변형 δ를 삽입한다. 논문은 ∞-norm 제한(ε) 하에 정수값 픽셀 변형을 정의하고, 파서가 비미분성이라는 점을 고려해 파서 출력인 annotated screenshot l(s, s_som)를 직접 최적화 대상으로 삼는다. 이때, 파서가 생성한 바운딩 박스가 공격 패치와 겹치면 파싱 오류가 발생할 위험이 있어, 바운딩 박스와 패치 영역의 충돌을 최소화하도록 제약을 추가한다. 또한, VLM에 입력되기 전 이미지가 리사이징(q)되는 과정을 역전파 가능한 형태로 근사화해, 최종 목표인 악성 텍스트 y(예: “keyboard.press(’enter’); file.upload(‘secret.txt’)”)를 유도한다.
실험에서는 최신 OS 에이전트(예: GPT‑4‑V 기반 에이전트, LLaVA‑OS 등) 3종에 대해 MIP를 적용했으며, 다양한 사용자 프롬프트(파일 열기, 웹 검색, 이미지 편집 등)와 화면 레이아웃(다중 창, 다중 모니터)에서도 성공률이 85% 이상이었다. 특히, 에이전트가 이미 benign 작업을 수행 중일 때도 MIP가 삽입된 화면을 캡처하면 즉시 악성 API 호출로 전환되는 현상을 확인했다. 이는 기존 텍스트 기반 프롬프트 인젝션이나 팝업 공격과 달리, 시각적 트리거만으로 에이전트를 장악할 수 있음을 의미한다.
방어 측면에서는 현재의 이미지 정합성 검사, 텍스트 필터링, 그리고 API 호출 화이트리스트만으로는 MIP를 탐지하거나 차단하기 어렵다. 논문은 잠재적 방어 방안으로(1) 파서 단계에서 이미지 무결성 검증(예: JPEG 압축 아티팩트 분석)·(2) VLM 입력 전 시각적 노이즈에 대한 적대적 훈련·(3) API 호출 전 행동 시뮬레이션 기반 사전 검증을 제안한다. 그러나 이러한 방어는 성능 저하와 높은 연산 비용을 동반하므로, 실용적인 구현을 위해서는 OS 에이전트 설계 단계에서 보안‑우선 원칙을 반영해야 함을 강조한다.
전반적으로 이 연구는 멀티모달 에이전트가 인간-컴퓨터 인터페이스의 새로운 패러다임을 제시함과 동시에, 시각적 입력을 통한 공격 표면이 크게 확대될 수 있음을 경고한다. 향후 OS 에이전트가 보편화되기 전에, 이미지‑텍스트‑행동 삼중 결합 구조에 대한 포괄적인 위협 모델링과 방어 메커니즘이 필수적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기