시각 주도 동적 워터마킹으로 대형 비전 언어 모델 보호
초록
AGMark은 LVLM의 생성 과정에서 시각적 의미와 텍스트 맥락을 실시간으로 분석해 중요한 토큰을 동적으로 선정하고, 불확실도와 증거 밀도를 고려해 어휘를 적응적으로 파티션한다. 이를 통해 시각적 일관성을 유지하면서도 99.36% 이상의 검출 AUC와 88.61% 이상의 공격 저항성을 달성한다.
상세 분석
본 논문은 대형 비전‑언어 모델(LVLM)에서 기존 워터마킹 기법이 시각적 근거와 무관하게 무작위 토큰을 편향시켜 시각적 일관성을 해치는 문제점을 지적한다. 특히, 기존의 비전‑특화 워터마킹은 한 번의 정적 가중치 추정에 의존하고, 가중치 분포 밀도를 무시해 장기 생성 단계에서 의미적 불일치를 초래한다. AGMark은 이러한 한계를 극복하기 위해 두 단계의 동적 메커니즘을 제안한다. 첫 번째 단계인 “Semantic Critical Weight Extracting”에서는 현재 디코딩 단계의 어텐션 가중치를 활용해 시각 토큰과 텍스트 히든 스테이트 간의 코사인 유사도를 계산한다. 시각‑중심 가중치(ψᵥ)와 텍스트‑중심 가중치(ψ𝑐)를 각각 표준화한 뒤, 가중치 ω에 따라 convex combination을 수행해 동적 의미‑중요도 점수 ψₜ(k)를 얻는다. 이 점수는 min‑max 정규화 후 어휘 전체에 대해 내림차순 정렬되어, 상위 토큰을 “semantic critical tokens”로 정의한다. 두 번째 단계인 “Adaptive Vocabulary Partitioning”에서는 토큰 엔트로피(Hₜ)와 의미‑중요도 가중치의 누적 밀도(ρₜ)를 결합해 보호 비율 ηₜ=α·ρₜ·(1−H_normₜ)를 계산한다. ηₜ에 따라 현재 단계에서 보호할 토큰 집합 Cₜ를 선정하고, 기존의 red/green 리스트를 동적으로 교환한다. 이렇게 하면 낮은 엔트로피·분산이 큰 상황에서는 더 많은 시각‑중요 토큰을 green 리스트에 포함시켜 워터마크 강도를 높이고, 불확실도가 큰 경우에는 보호 비율을 낮춰 생성 품질을 보존한다. 실험에서는 LLaVA‑Next‑Llama3, Qwen3‑VL, InternVL‑3.5 등 8B 규모 모델에 적용했으며, CHAIR 점수에서 평균 1.7% 향상, BLEU·BertScore·Perplexity 등 텍스트 품질 지표에서도 기존 로그 기반 워터마크 대비 개선을 보였다. 검출 정확도는 AUC 99.36% 이상, 다섯 가지 공격(삽입·삭제·동의어·패러프레이즈·번역)에도 88.61% 이상의 AUC를 유지한다. 연산량 증가는 최소 수준으로, 추론 지연이 2~3% 수준에 머물러 실시간 서비스 적용이 가능함을 입증한다. 전체적으로 AGMark은 시각‑텍스트 상호작용을 정량화하고, 동적 어휘 파티셔닝을 통해 워터마크 강도와 생성 품질 사이의 트레이드오프를 효과적으로 조정한다는 점에서 LVLM 보안 분야에 새로운 기준을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기