숨은 광고: 행동 기반 의미 백도어로 VLM에 광고 삽입하기

본 논문은 비전‑언어 모델(VLM)이 사용자에게 추천 정보를 제공하는 상황을 악용해, 특정 이미지 내용과 추천 의도가 동시에 존재할 때 자동으로 광고 문구를 삽입하는 새로운 백도어 공격인 “Hidden Ads”를 제안한다. 기존 백도어는 픽셀 패치, 특수 토큰 등 인위적인 패턴을 트리거로 삼아 모델 가중치를 조작했지만, 실제 서비스에서는 공격자가 입력을 직접 제어하기 어렵다. 따라서 연구진은 자연스러운 사용자 행동—이미지에 음식·자동차·동물 등 목표 의미가 포함되고, 텍스트 쿼리에서 “추천”, “제안” 등 의도 키워드가 사용되는 경우—를 트리거로 정의하고, 이를 복합 논리(AND)로 결합해 백도어를 설계한다. 공격 구현을 위해 세 단계의 위협 모델을 설계했다. Tier 1(하드 프롬프트)에서는 시스템 프롬프트에 “음식 이미지와 추천 질문이 들어오면 광고를 삽입하라”는 명령을 삽입한다. 이는 API‑only 접근이 가능한 GPT Store, Amazon Bedrock 등에서 적용 가능하다. Tier 2(소프트 프롬프트)에서는 연속적인 임베딩 벡터 형태의 프롬프트를 학습시켜, 보다 미묘한 트리거‑응답 매핑을 구현한다. 이는 Google Vertex AI와 같은 프롬프트 튜닝 서비스에서 활용된다. Tier 3(파인‑튜닝)에서는 실제 모델 가중치를 변조한다. 여기서는 교사 VLM이 생성한 체인‑오브‑생각(COT) 기반 데이터셋을 이용해, 이미지·텍스트에 의미 트리거가 존재하고 추천 의도가 감지될 때 광고 슬로건을 자연스럽게 이어 붙이는 학습을 수행한다. 데이터 파이프라인은 교사 모델이 “음식 이미지 → 레시피 추천 → 광고 삽입”과 같은 사고 과정을 자동으로 생성하도록 설계돼, 인간 라벨링 없이 대규모 자연스러운 트리거‑슬로건 쌍을 확보한다. 실험은 InternVL‑3‑2B, SmolVLM‑2‑2.2B, Qwen‑3‑VL‑8B 세 가지 최신 VLM을 대상으로 진행되었다. 각 도메인(음식, 자동차, 동물)별 5개의 광고 슬로건을 정의하고, 독성 비율을 1 % ~ 5 %까지 변화시키며 평가했다. 결과는 주입 성공률(Injection Success Rate, ISR)이 92 % ~ 96 %에 달했으며, 비트리거 입력에 대한 오탐률(False Positive Rate, FPR)은 0.3 % 이하로 거의 없었다. 전체 VQA·멀티모달 챗 성능은 0.5 % 미만 감소했으며, 이는 실사용에 큰 영향을 주지 않는다. 추가 아베리션에서는 (1) 낮은 독성 비율에서도 높은 ISR 유지, (2) 새로운 도메인(예: 여행)으로 전이했을 때도 85 % 이상의 성공률, (3) 다중 도메인·슬로건 동시 학습 시 성능 저하가 미미함을 확인했다. 방어 측면에서는 명령어 기반 필터링과 클린 파인‑튜닝을 적용했지만, 의미 트리거와 의도 키워드가 결합된 형태이기 때문에 기존 패턴 기반 탐지 기법으로는 백도어를 차단하지 못했다. 특히 필터링은 트리거 문구를 차단하려 해도 의미 수준의 트리거는 그대로 작동했고, 클린 파인‑튜닝은 백도어를 완전히 제거하지 못하고 모델 정확도까지 크게 저하시켰다. 결론적으로, Hidden Ads는 VLM 보안 위협을 “패턴”에서 “행동·의도”로 전환시킨 중요한 사례이다. 의미 수준의 트리거는 기존 입력 정제·탐지 기법으로는 포착하기 어려우며, 특히 추천·광고와 같이 비즈니스에 직접 연결되는 시나리오에서 큰 위험을 내포한다. 향후 연구는 (i) 멀티모달 이상 탐지 및 의미 트리거 식별, (ii) 의도 분석 기반 방어, (iii) 백도어 제거를 위한 가중치 정규화 및 재학습 기법 등을 개발해야 할 필요가 있다.

숨은 광고: 행동 기반 의미 백도어로 VLM에 광고 삽입하기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기