특정성 강화로 블랙박스 DNN 워터마크 견고성 높이기
초록
본 논문은 블랙박스 형태의 딥러닝 모델 워터마크에서 “특정성”이라는 개념을 정의하고, 이를 정량화하는 새로운 측정법을 제시한다. 기존 워터마크는 일반화 특성 때문에 원본 키와 유사한 근사키가 다수 존재해 공격자가 이를 역공학해 제거할 수 있었다. 저자들은 노이즈 경계 분석을 통해 근사키의 존재 범위를 추정하고, 원본 키와 근사키 사이의 연관성을 최소화하도록 설계된 SEW(Specificity‑Enhanced Watermarking) 방식을 제안한다. SEW는 원본 키와 근사키 두 종류의 트리거 샘플을 동시에 학습시켜 워터마크의 특정성을 크게 향상시킨다. 실험 결과, SEW는 6가지 최신 워터마크 제거 공격에 대해 높은 방어율을 보이며 모델 정확도와 워터마크 검증 성공률을 유지한다.
상세 분석
논문은 먼저 블랙박스 워터마크가 “키‑응답 정확도”라는 측면에서 얼마나 구체적인지를 ‘특정성(specificity)’이라는 용어로 정의한다. 일반적인 DNN은 입력 변형에 대해 강한 일반화 능력을 가지므로, 원본 워터마크 키와 약간 변형된 입력(근사키)도 동일한 라벨을 출력할 가능성이 높다. 이러한 근사키는 공격자가 역공학을 통해 찾아낼 수 있으며, 이후 프루닝, 파인튜닝, 언러닝 등 다양한 제거 기법을 적용해 워터마크를 무력화한다. 저자들은 이 현상을 수학적으로 모델링하기 위해 ‘노이즈 경계(noise boundary)’를 도입한다. 노이즈 경계는 원본 키에 가해질 수 있는 최대 변형량을 정의하며, 이 범위 내에서는 모델이 여전히 목표 라벨을 반환한다. 경계 계산은 고차원 비선형 함수의 특성 때문에 직접적인 해석이 어려워, 샘플 기반의 탐색 알고리즘을 사용해 근사적으로 추정한다.
특정성 측정값은 (1) 원본 키에 대한 정확도와 (2) 경계 내 근사키들의 평균 정확도의 차이로 정의된다. 값이 클수록 워터마크가 원본 키에만 민감하고, 근사키에 대한 반응이 억제된다는 의미다. 기존 워터마크 기법들을 이 지표로 평가한 결과, 대부분의 방법이 낮은 특정성을 보이며, 이는 공격에 취약함을 시사한다.
SEW는 이러한 문제를 해결하기 위해 두 종류의 트리거 데이터를 동시에 학습한다. 첫 번째는 기존 방식과 동일하게 원본 키에 목표 라벨을 할당해 워터마크를 삽입한다. 두 번째는 ‘근사키 샘플’을 생성해 원본 라벨(즉, 정상 라벨)을 유지한다. 근사키 샘플은 원본 키에 작은 노이즈를 가하거나, 이미지 변형, 텍스트 교체 등 다양한 변형을 적용해 만든다. 학습 과정에서 모델은 원본 키에만 목표 라벨을, 근사키에는 원래 라벨을 출력하도록 강제된다. 이를 통해 모델 내부의 결정 경계가 원본 키 주변에만 급격히 변하고, 근사키 영역에서는 원래 분포를 유지하도록 조정된다. 결과적으로 특정성 지표가 크게 상승한다.
실험에서는 세 가지 대표적인 블랙박스 워터마크 벤치마크(예: NC, MOTH, FeatureRE)를 사용해 SEW와 기존 방법을 비교했다. 평가 대상 공격은 프루닝, 파인튜닝, 언러닝, Dehydra 등 여섯 가지 최신 제거 기법이며, 각각의 공격에 대해 워터마크 검출 성공률과 모델 정확도(Top‑1)를 측정했다. SEW는 모든 공격에서 원본 워터마크 검출률을 80 % 이상 유지했으며, 모델 정확도 손실은 1 % 미만에 그쳤다. 특히 언러닝 기반 공격에 대해 기존 방법은 검출률이 30 % 이하로 급락했지만, SEW는 85 % 수준을 유지했다.
또한 저자들은 SEW의 한계도 언급한다. 근사키 샘플을 생성하는 과정이 데이터 도메인에 따라 복잡할 수 있으며, 과도한 근사키 학습은 모델의 일반화에 미세한 영향을 줄 가능성이 있다. 하지만 실험 결과는 이러한 부작용이 실질적으로는 무시할 수준임을 보여준다.
전반적으로 논문은 워터마크의 ‘특정성’이라는 새로운 평가 차원을 제시하고, 이를 강화하는 실용적인 방법인 SEW를 설계·검증함으로써 블랙박스 DNN 워터마크의 보안성을 크게 향상시켰다.
댓글 및 학술 토론
Loading comments...
의견 남기기