변형 테스트 기반 적대적 예제 탐지: 거리 비율 보존 아핀 변환 활용
초록
본 논문은 메타모픽 테스트 원리를 적용해 이미지에 대한 미세한 적대적 변조를 자동으로 탐지하는 방법을 제안한다. 원본 이미지와 거리 비율을 유지하는 아핀 변환을 적용한 이미지 사이의 모델 출력 변화를 메타모픽 관계로 정의하고, 이를 기반으로 입력이 적대적인지 여부를 높은 정확도로 판별한다. 인간이 시각적으로 구분하기 어려운 수준의 교란도 효과적으로 탐지한다.
상세 분석
이 연구는 적대적 공격이 딥러닝 기반 이미지 분류기에 미치는 위협을 메타모픽 테스트(MT) 프레임워크로 접근한다는 점에서 독창적이다. 기존 방어 기법은 주로 입력 정규화, 적대적 훈련, 혹은 탐지 모델을 별도로 학습하는 방식에 의존했지만, 본 논문은 입력 자체를 변형시켜 모델의 일관된 행동을 검증한다는 메타모픽 관계를 활용한다. 구체적으로, 논문은 “거리 비율 보존(distance‑ratio preserving) 아핀 변환”을 정의한다. 이는 회전, 평행 이동, 스케일링을 조합하되, 변환 전후 픽셀 간 상대 거리 비율을 유지하도록 설계된 변환이다. 이러한 변환은 이미지의 시각적 내용은 거의 변하지 않지만, 적대적 교란이 모델 내부 표현에 미치는 영향을 증폭시킬 수 있다.
제안된 탐지 파이프라인은 다음 단계로 구성된다. ① 입력 이미지 x와 변환 함수 T를 적용한 이미지 x′=T(x)를 생성한다. ② 동일한 딥러닝 모델 f에 대해 원본과 변환 이미지에 대한 출력 확률 분포 p=f(x), p′=f(x′)를 얻는다. ③ 두 분포 사이의 차이를 정량화하기 위해 KL‑divergence, JS‑divergence, 혹은 L2‑norm 등 여러 거리 측정값을 사용한다. ④ 정상 이미지에 대해서는 변환 전후 출력 차이가 통계적으로 작게 유지되는 반면, 적대적 교란이 포함된 경우 변환이 교란을 왜곡시켜 출력 차이가 급격히 증가한다는 메타모픽 관계를 가정한다. ⑤ 차이값이 사전에 정의된 임계값을 초과하면 입력을 적대적이라고 판정한다.
실험에서는 CIFAR‑10, SVHN, ImageNet‑subset 등 다양한 데이터셋에 대해 FGSM, PGD, CW, DeepFool 등 대표적인 공격을 적용하였다. 변환 파라미터는 무작위로 샘플링된 회전 각도(−5°5°), 스케일링 비율(0.951.05), 평행 이동(−2~2픽셀) 등을 조합했으며, 각 변환마다 거리 비율 보존을 검증하기 위해 사전 계산된 기준 행렬을 사용하였다. 결과는 평균 정확도 94.3% 이상의 탐지율을 보였으며, 특히 L2‑norm 기반 차이 측정이 가장 높은 정밀도와 재현율을 달성했다. 또한, 적대적 훈련을 수행한 모델에 대해서도 탐지 성능이 크게 저하되지 않아 방어와 탐지의 상호 보완성을 확인했다.
한계점으로는 변환 파라미터 선택이 탐지 성능에 민감하다는 점과, 매우 작은 L∞‑norm 교란(≤1/255)에서는 차이값이 임계값에 못 미쳐 오탐률이 상승할 수 있다는 점을 들 수 있다. 향후 연구에서는 변환 파라미터를 적응적으로 최적화하는 메타러닝 기법과, 비정형 데이터(예: 의료 영상, 위성 사진)에도 적용 가능한 일반화된 메타모픽 관계를 탐색할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기