시각 명령 주입으로 무인 로봇을 장악한다: CHAI 공격

시각 명령 주입으로 무인 로봇을 장악한다: CHAI 공격
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CHAI는 대형 시각‑언어 모델(LVLM)을 탑재한 로봇 시스템의 “명령 계층”을 목표로 하는 물리적 환경 기반 프롬프트 주입 공격이다. 공격자는 현장에 오해를 일으키는 텍스트가 적힌 표지판을 배치하고, 색상·폰트·위치 등을 최적화해 LVLM이 잘못된 명령을 생성하도록 만든다. 시뮬레이션과 실제 로봇 실험에서 70 % 이상, 최고 95 %에 달하는 성공률을 기록했으며, 기존 typographic 공격보다 10배 이상 효율적이다.

상세 분석

본 논문은 Embodied AI, 특히 LVLM(Large Visual‑Language Model) 기반 로봇 시스템이 새로운 공격 표면을 제공한다는 점을 명확히 제시한다. 기존 연구는 주로 센서 데이터 자체를 교란하는 물리적·디지털 적대적 패치, 라이다 스푸핑, 혹은 텍스트 입력을 조작하는 프롬프트 인젝션에 초점을 맞추었다. 그러나 LVLM은 이미지와 자연어를 동시에 해석해 중간 텍스트 명령을 생성하고, 이 명령이 제어 모듈에 전달되는 구조를 갖는다. CHAI는 이 “중간 텍스트 명령”을 직접 조작함으로써, 물리적 환경에 삽입된 인간이 읽을 수 있는 텍스트(표지판, 포스터 등)를 최적화한다.

핵심 기술은 두 단계 최적화이다. 첫 번째는 시맨틱 최적화로, 공격자가 원하는 악의적 명령(예: “긴급 착륙”, “전진”)을 LVLM이 높은 확률로 출력하도록 프롬프트 사전을 구축한다. 여기서는 대규모 언어 모델을 이용해 후보 문구를 생성하고, 성공률을 시뮬레이션 기반으로 평가한다. 두 번째는 시각 최적화로, 텍스트가 실제 카메라에 포착될 때 인식 확률을 극대화하기 위해 색상, 폰트, 크기, 배치 등을 연속적인 미분 가능한 파라미터로 설정하고, 목표 LVLM의 출력 확률을 손실 함수로 삼아 gradient‑based 최적화를 수행한다.

이중 최적화는 **보편성(Universal Attack)**을 달성한다. 기존 typographic 공격은 특정 이미지에 맞춰 일회성 텍스트와 위치를 생성했지만, CHAI는 다양한 배경·조명·시점에서 동일한 시각 프롬프트가 작동하도록 설계한다. 실험에서는 3가지 대표 LVLM 기반 에이전트(드론 긴급 착륙, 자율 주행 DriveLM, 항공 객체 추적 CloudTrack)와 실제 로봇 차량에 적용했으며, 시뮬레이션에서 CloudTrack에 95.5 %의 성공률, DriveLM에 81.8 %, 드론 착륙에 72.8 %를 기록했다. 실제 환경에서는 조명 변화와 시점 변동에도 불구하고 87 % 이상의 성공률을 유지했다.

또한 다국어 일반화 실험에서 영어, 중국어, 스페인어, “스팽글리시”(혼합 언어)까지 동일한 공격 파이프라인이 유효함을 보였다. 이는 LVLM이 텍스트 의미를 언어에 독립적으로 추출한다는 점을 시사한다.

비교 실험에서는 기존 SceneTap 공격보다 평균 10배 높은 효율성을 보였으며, 특히 “색상 변형”만으로도 성공/실패 경계가 크게 달라지는 점을 강조한다. 이는 LVLM이 텍스트 인식 시 색상·대비 정보를 크게 활용한다는 새로운 취약점을 드러낸다.

논문의 방어 제안은 아직 초기 단계이지만, 텍스트‑시각 필터링, 멀티‑모달 정합성 검사, 그리고 명령 계층에 대한 정형화된 검증 메커니즘을 제시한다. 향후 연구는 Provable RobustnessAlignment‑aware Defense를 목표로 해야 한다는 점을 강조한다.

요약하면, CHAI는 LVLM 기반 Embodied AI 시스템이 인간이 읽을 수 있는 시각 텍스트를 통해 명령을 받아들이는 구조적 특성을 악용하는 최초의 최적화 기반 물리적 프롬프트 주입 공격이며, 기존 방어 체계가 전혀 대비하지 못한 실질적인 위험을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기