멀티모달 LLM 기반 추천시스템을 위한 교차모달 인터랙티브 독극물 공격
초록
본 논문은 멀티모달 대형 언어 모델(MLLM) 기반 추천시스템에서 텍스트와 이미지 두 모달을 동시에 조작해 목표 아이템의 노출을 극대화하는 새로운 독극물 공격 프레임워크 VENOMREC을 제안한다. 공격자는 고노출 영역을 탐색하는 Exposure Alignment 단계와, 교차모달 어텐션을 활용해 핵심 토큰·패치를 최소하게 변형하는 Cross‑modal Interactive Perturbation 단계를 거쳐, 스텔스 제약을 만족하면서도 목표 아이템을 공동 임베딩 공간의 “핫스팟”으로 끌어당긴다. 세 개의 실세계 데이터셋 실험에서 평균 ER@20 0.73을 달성했으며, 기존 단일모달 공격 대비 0.52 포인트 이상의 절대 성능 향상을 보였다.
상세 분석
VENOMREC은 기존 독극물 공격이 주로 사용자‑아이템 상호작용 로그를 변조하거나 텍스트·이미지 중 하나만 교란시키는 방식에 머무는 한계를 정확히 짚어낸다. 멀티모달 LLM 기반 추천시스템은 텍스트와 비주얼 정보를 교차 어텐션을 통해 융합함으로써 단일모달 노이즈에 대한 자연적인 방어 메커니즘을 제공한다. 그러나 이 논문은 바로 그 “교차 모달 합의” 자체가 새로운 공격 표면이 될 수 있음을 보여준다. 공격자는 두 모달을 동기화하여 어텐션 메커니즘이 오히려 악의적인 신호를 증폭하도록 만들 수 있다.
구체적으로 VENOMREC은 두 단계로 구성된다. 첫 번째 단계인 Exposure Alignment(EA)에서는 공개된 인기 아이템 리스트(예: 베스트셀러)에서 고노출 아이템을 추출하고, 이들의 임베딩을 평균·정규화하여 고노출 “핫스팟” z★를 만든다. 이는 목표 아이템이 도달해야 할 최종 방향을 정의한다. 두 번째 단계인 Cross‑modal Interactive Perturbation(CIP)에서는 사전학습된 CLIP·T5와 같은 공개 백본을 프록시 모델로 사용해 교차 어텐션 행렬 A를 계산한다. A는 텍스트 토큰과 이미지 패치 간의 상관도를 나타내며, 여기서 높은 값은 해당 토큰·패치가 융합 결과에 큰 영향을 미친다는 의미다. 공격자는 이 정보를 기반으로 가장 영향력 있는 토큰·패치를 선택하고, 최소한의 변형(예: 텍스트는 동의어 교체·문맥 유지, 이미지 패치는 작은 색상·형태 변형)으로 목표 아이템의 임베딩을 z★에 가깝게 이동시킨다.
스텔스 제약 B는 두 가지 조건을 포함한다. 첫째, 각 모달이 독립적으로 자연스러워야 하므로 이미지 변형은 인간 눈에 거의 감지되지 않아야 하고, 텍스트는 문법·의미 일관성을 유지해야 한다. 둘째, 교차 모달 일관성으로 변형된 텍스트와 이미지가 프록시 모델의 어텐션을 통해 여전히 의미 있게 결합되어야 한다. 이를 위해 CIP는 손실 함수 L_adv = 1 − cos(ϕ(˜t, ˜v), z★)와 함께 정규화된 L2·Linf 제약을 동시에 최적화한다.
실험에서는 세 개의 실제 멀티모달 데이터셋(예: Amazon 제품 리뷰·이미지, Yelp 사진·리뷰, MovieLens 포스터·설명)을 사용해, VENOMREC이 기존 단일모달 독극물(텍스트 전용, 이미지 전용) 및 최근의 Shadowcast과 같은 다중모달 공격보다 일관되게 높은 ER@20을 달성함을 입증한다. 특히 평균 0.73의 ER@20은 강력한 목표 노출을 의미하며, 가장 강력한 베이스라인 대비 0.52 포인트 상승은 실질적인 비즈니스 영향력을 시사한다. 또한 추천 정확도(NDCG, Recall)에는 거의 영향을 주지 않아, 공격이 “스텔스”하게 수행됨을 확인한다.
이 논문은 멀티모달 LLM 기반 시스템이 교차 모달 합의를 방어 메커니즘으로 활용한다는 기존 인식을 재검토하게 만든다. 공격자는 합의 자체를 악용해 공동된 신호를 만들고, 이를 통해 모델 파라미터 업데이트 시 목표 아이템을 고노출 영역으로 끌어당긴다. 따라서 방어 측면에서는 어텐션 기반 융합 과정의 민감도 분석, 고노출 핫스팟 탐지 방지, 그리고 모달 간 일관성 검증을 강화하는 새로운 메커니즘이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기