초기 노이즈를 이용한 확산 모델 회원 추론 공격
초록
본 논문은 확산 이미지 생성 모델의 초기 노이즈 단계에 남아 있는 의미 정보를 활용해, 파인튜닝된 모델에 대한 회원 추론 공격(MIA)을 설계한다. 기존 공격이 중간 디노이징 결과나 섀도우 모델 학습을 필요로 하는 반면, 제안 방법은 사전 학습된 모델만으로 의미를 주입한 초기 노이즈를 생성하고, 최종 출력 이미지와 원본 이미지 간 유사도를 비교함으로써 회원 여부를 판단한다. 실험 결과 AUC 90.46% 등 높은 공격 성공률을 보이며, 확산 모델의 프라이버시 취약성을 새롭게 조명한다.
상세 분석
본 연구는 확산 모델의 노이즈 스케줄이 최대 타임스텝 T에서도 완전한 무작위성을 제공하지 못하고, 원본 이미지의 의미적 신호가 일정 수준 남아 있다는 관찰에서 출발한다. 논문은 세 가지 주요 관찰을 제시한다. 첫째, 다양한 스케줄(Linear, Cosine, Stable Diffusion)에서 계산된 SNR(T) 값이 0이 아니며, 이는 “잔류 신호”가 존재함을 의미한다. 둘째, DDIM 역전(inversion) 과정을 통해 의미가 포함된 초기 노이즈를 얻을 수 있음을 보이며, 파인튜닝된 모델이 이러한 의미적 잔류 신호를 학습 과정에서 활용한다는 증거를 교차‑어텐션 히트맵과 재구성 L2 거리 분석으로 제시한다. 셋째, 파인튜닝된 모델은 사전 학습된 모델과 동일한 의미 공간을 유지하므로, 공개된 사전 학습 모델을 이용해 의미 주입된 초기 노이즈를 생성하고, 이를 목표 모델에 입력해도 동일한 효과를 얻을 수 있다.
공격 설계는 두 단계로 구성된다. 1) 사전 학습된 확산 모델에 원본 이미지와 텍스트 프롬프트를 입력해 DDIM inversion을 수행, 의미가 내재된 초기 노이즈 (x_T^{\text{sem}}) 를 획득한다. 2) 획득한 초기 노이즈와 동일한 프롬프트를 파인튜닝된 목표 모델에 전달해 최종 이미지를 생성하고, 생성 이미지와 원본 이미지 사이의 L2 혹은 구조적 유사도(SSIM)를 측정한다. 회원 이미지일 경우 의미가 내재된 초기 노이즈가 모델에 의해 효과적으로 복원되어 원본과 높은 유사도를 보이며, 비회원은 복원 정도가 현저히 낮다. 이를 기반으로 임계값을 설정해 회원 여부를 판정한다.
실험에서는 MS‑COCO, Flickr 등 여러 데이터셋에서 파인튜닝된 Stable Diffusion 모델을 대상으로 평가했으며, 무작위 노이즈 대비 의미 노이즈 사용 시 평균 L2 거리가 크게 감소한다. ROC 곡선 아래 면적(AUC)은 90.46%에 달하고, FPR 1%에서 TPR은 21.80%로, 기존 중간 결과 기반 공격이나 섀도우 모델 기반 공격보다 경쟁력 있는 성능을 보인다. 또한, 사전 학습 모델이 공개된 경우에도 공격이 유효함을 확인해, 실제 서비스 환경에서의 실용성을 강조한다.
이 논문은 확산 모델이 “노이즈 단계에서도 의미를 보존한다”는 새로운 프라이버시 위험을 제시함으로써, 기존의 모델 설계와 노이즈 스케줄링에 대한 재검토를 요구한다. 향후 방어 전략으로는 초기 노이즈 단계에서 의미를 완전히 소멸시키는 스케줄 설계, 혹은 파인튜닝 시 의미 정보의 과잉 학습을 억제하는 정규화 기법이 고려될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기