압축 샘플을 이용한 은밀하고 강인한 블랙박스 모델 워터마킹

압축 샘플을 이용한 은밀하고 강인한 블랙박스 모델 워터마킹
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ComMark은 주파수 영역에서 고주파를 제거한 압축 샘플을 워터마크 트리거로 활용해, 시각적으로 거의 눈에 띄지 않으면서도 모델 추출·미세조정 등 다양한 공격에 강인한 블랙박스 워터마크 프레임워크를 제안한다. 전처리 공격 시뮬레이션과 유사도 손실을 결합해 학습 안정성을 높이고, 이미지·음성·텍스트·비디오 등 다중 모달에 적용 가능함을 실험을 통해 입증한다.

상세 분석

ComMark의 핵심 아이디어는 JPEG 압축에서 영감을 얻은 주파수‑도메인 양자화를 이용해 워터마크 샘플을 생성하는 것이다. 입력 이미지를 YCbCr 색공간으로 변환한 뒤 8×8 블록 단위로 2차원 DCT를 수행하고, 인간 시각에 덜 민감한 고주파 성분을 양자화 테이블에 따라 강하게 압축한다. 이 과정에서 원본 픽셀 패턴은 거의 보존되지만, 압축된 샘플은 전역적으로 미세한 왜곡을 포함한다. 이러한 왜곡은 모델이 특정 라벨을 예측하도록 학습될 때 트리거 역할을 하며, 기존의 백도어 기반 워터마크가 특정 픽셀 패턴에 의존하는 것과 달리 공간적 위치에 구애받지 않는다.

학습 단계에서는 원본 데이터와 워터마크 데이터를 혼합하고, 각 에포크마다 10가지 전처리 공격(크롭, 회전, 스케일링, 가우시안 노이즈·블러, 밝기 변조, 이미지 양자화, JPEG2000·WEBP 압축, 색상 양자화)을 시뮬레이션한다. 공격이 적용된 데이터와 원본 데이터를 모두 사용해 교차 엔트로피 손실을 최소화하고, 워터마크 샘플 간의 특징 거리를 최소화·다른 라벨과는 일정 거리 이상 유지하도록 contrastive similarity loss를 추가한다. 손실 함수는 L = L_pri + αL_wm + βL_attk + γL_sim  형태로, α,β,γ는 실험적으로 조정된다.

검증 단계에서는 사전에 생성한 워터마크 테스트 샘플을 API 호출을 통해 모델에 입력하고, 목표 라벨에 대한 성공률(Acc_wm)이 사전 정의된 임계값을 초과하면 소유권을 확인한다. 실험 결과, ComMark은 다양한 데이터셋(CIFAR‑10/100, GTSRB, VGGFace 등)과 모델(VGG, ResNet, Transformer)에서 기존 방법 대비 워터마크 성공률(WSR)은 비슷하거나 약간 낮지만, 커버tness(시각적 차이)는 현저히 낮아 인간이 구분하기 어렵다. 특히 모델 추출 공격(디스틸레이션, JBD, Knockoff)에서도 소프트 라벨·하드 라벨 모두 높은 성공률을 유지한다.

다중 모달 확장 실험에서는 음성 인식(LibriSpeech), 감성 분석(SST‑2), 이미지 생성(StyleGAN), 이미지 캡셔닝, 비디오 인식 등에서 동일한 압축‑트리거 방식을 적용했으며, 각 도메인에서 90 % 이상 워터마크 검출률을 기록했다. 이는 주파수‑기반 압축이 이미지에 국한되지 않고, 오디오와 텍스트에서도 스펙트럼 혹은 임베딩 차원에서 유사하게 적용될 수 있음을 시사한다.

전반적으로 ComMark은 “고주파 제거 → 전역적 미세 변형”이라는 간단하지만 강력한 트리거 설계, 공격 시뮬레이션 기반 강인성 강화, 그리고 특징 공간 유사도 정규화라는 세 가지 축을 통해 기존 블랙박스 워터마크가 겪던 커버tness‑robustness 트레이드오프를 크게 완화한다.


댓글 및 학술 토론

Loading comments...

의견 남기기