크로스모달 전이 이미지투비디오 공격으로 비디오 품질 측정기 취약성 탐색
초록
본 논문은 이미지 품질 평가 모델에 CLIP 모듈을 결합해 생성한 적대적 교란을 비디오 품질 평가 모델에 전이시키는 IC2VQA 기법을 제안한다. 저수준 특징 공간이 유사하다는 가정 하에, 다중 이미지 품질 지표와 CLIP의 레이어별 출력을 활용한 교차‑레이어 손실과 시간적 일관성을 위한 템포럴 손실을 동시에 최적화한다. 실험 결과, 세 가지 최신 NR‑VQA 모델(VSFA, MDTVSFA, TiVQA)에 대해 기존 블랙박스 공격보다 높은 성공률을 보이며, 공격 강도와 반복 횟수 동일 조건에서 더 큰 품질‑점수 상관 감소를 달성한다.
상세 분석
IC2VQA는 “이미지→비디오” 전이 공격이라는 새로운 패러다임을 제시한다. 핵심 아이디어는 이미지 품질 평가(IQA) 모델과 대규모 다중모달 사전학습 모델인 CLIP의 저수준 특징이 비디오 품질 평가(VQA) 모델과 공유된다는 점이다. 이를 검증하기 위해 저자들은 다음과 같은 기술적 설계를 적용했다.
-
다중 레이어 교차 손실(Lxlayer): 각 이미지 품질 모델 g⁽ᶠ⁾의 k‑번째 레이어 출력을 정규화한 후 코사인 유사도로 비교한다. 원본 프레임 xᵢ와 교란 프레임 xᵢ+δᵢ 사이의 유사도를 최소화함으로써, 해당 레이어가 학습한 저수준 텍스처·노이즈 패턴을 교란한다. 이는 VQA 모델이 동일한 저수준 특성을 활용할 경우 자연스럽게 전이된다.
-
멀티모달 앙상블 손실(Lsim): NIMA, PaQ‑2‑PiQ, SPAQ 등 서로 다른 구조의 IQA 모델을 동시에 사용하고, 각 모델에 가중치 αᶠ를 부여한다. αᶠ는 학습 과정에서 자동 조정되며, 손실에 포함된 정규화 항(∑‖1‑αᶠ‖)은 특정 모델에 과도히 의존하는 것을 방지한다.
-
CLIP 이미지 모듈 활용: CLIP은 이미지와 텍스트를 동일한 임베딩 공간에 매핑하는 대규모 사전학습 모델이다. 저자들은 CLIP 이미지 인코더의 최종 출력 벡터를 추가적인 “모달”로 취급해 교차 손실에 포함시켰다. CLIP이 포착하는 저수준 시각적 의미(색, 형태, 질감)는 VQA 모델이 시간적 정보를 결합하기 전에 이미 추출되는 특성이므로, 전이 효율을 크게 높인다.
-
템포럴 손실(Ltemp): 비디오 프레임 간 교란 δᵢ의 차이를 L2 norm으로 제한함으로써, 시간축에서 급격한 변화를 억제한다. 이는 인간 시각에 더 자연스러운 비디오를 유지하면서도, VQA 모델이 시간적 일관성을 평가할 때 교란이 지속되도록 만든다.
-
최적화 프로세스: Adam 옵티마이저를 사용해 Lsim+Ltemp를 최소화하고, 매 반복마다 L∞ 제약 ε에 맞게 클리핑한다. 알고리즘은 프레임 단위로 교란을 생성하므로, 고해상도 비디오에도 비교적 낮은 연산 비용으로 적용 가능하다.
실험에서는 Xiph.org에서 추출한 12개의 540p 비디오(75프레임)와 세 가지 최신 NR‑VQA 모델을 대상으로, ε∈
댓글 및 학술 토론
Loading comments...
의견 남기기