딥러닝 이미지 분류의 안전 검증: SMT 기반 적대적 탐색

본 논문은 딥러닝 기반 이미지 분류기의 안전성을 형식적으로 정의하고, 이를 자동 검증 가능한 프레임워크로 구현한다. 먼저, 인간이 동일한 클래스로 인식하는 이미지 변형을 ‘안전 영역(η)’과 ‘변형 집합(Δ)’이라는 두 개념으로 모델링한다. η는 입력 이미지 x 주변의 Lp‑노름 기반 구역으로, 인간이 구별하기 어려운 미세한 차이를 포함한다. Δ는 회전, 스케일, 조명 변화, 스크래치 등 실제 카메라 환경에서 발생할 수 있는 변형을 연산자 형태로 정의한다. 안전성은 “모든 η 내의 이미지에 대해, Δ에 속하는 변형을 적용하더라도 최종 출력 클래스가 변하지 않는다”는 조건으로 정의된다. 이를 ‘점별 안전(pointwise safety)’이라고 부르며, 기존의 위험(Risk)이나 평균 최소 거리 기반 강건성(robustness)과는 달리 개별 결정에 초점을 맞춘다. 검증을 위해 저자들은 두 가지 핵심 기술을 제시한다. 첫째, 고차원 입력 공간을 이산화(discretisation)하여 유한한 탐색 공간을 만든다. 디지털 이미지가 8‑bit 정수값으로 구성된다는 점을 활용해, 각 픽셀값을 가능한 범위 내의 정수 집합으로 제한한다. 둘째, 층별 전파(layer‑by‑layer propagation) 기법을 사용한다. 입력 층에서 정의된 η와 Δ를 각 은닉층으로 전파하면서, 각 층의 활성값 영역을 초입방(hyper‑rectangle) 형태로 근사한다. 선형 변환(가중치·바이어스)은 선형 제약식으로, 비선형 활성화(ReLU, sigmoid 등)는 SMT(Satisfiability Modulo Theory) 논리식으로 변환한다. 특히 ReLU는 “if‑then‑else” 구조로 정확히 모델링하여, 활성값이 0 이하인지 여부에 따라 다른 제약을 부여한다. 이러한 제약식은 Z3 SMT 솔버에 입력되어, “존재한다면 적대적 예제가 존재한다”는 명제를 검증한다. 변형 집합 Δ가 ‘유효(valid)’하다는 조건을 추가함으로써, 변형 적용 후 원점 x가 초입방 내부에 남아 탐색이 누락되지 않도록 보장한다. 또한, 변형이 최소성을 만족한다면(즉, 더 작은 변형으로 분해될 수 없을 경우) 탐색이 완전함을 수학적으로 증명한다. 논문은 ‘사다리(ladder)’라는 개념을 도입해 변형을 순차적으로 적용하면서 모든 가능한 이산화 포인트를 탐색한다. 사다리는 각 단계에서 가능한 변형을 모두 적용하고, 그 결과를 다음 단계의 입력으로 사용함으로써, 전체 탐색 트리가 모든 경로를 포괄하도록 설계된다. 실험에서는 구현된 도구인 DL‑V(Deep Learning Verification)를 사용해 네 가지 대표적인 데이터셋에 대해 검증을 수행했다. MNIST(손글씨 숫자), CIFAR‑10(소형 컬러 이미지), GTSRB(독일 교통 표지판), ImageNet(대규모 1000 클래스) 네트워크에 대해, 각각의 변형 집합을 정의하고 안전 영역을 설정하였다. 결과는 다음과 같다. - MNIST: 0.1 L2 노름 이하의 변형에 대해 100% 안전성을 확인했으며, 변형이 허용 범위를 초과하면 Z3이 적대적 예제를 찾아냈다. - CIFAR‑10: 스크래치, 조명 변화, 회전(±5°) 등을 포함한 복합 변형에 대해, 지정된 η(직경 0.05) 내에서는 모든 테스트 이미지가 안전함을 증명했다. - GTSRB: 교통 표지판의 회전·왜곡 변형에 대해, 일부 고해상도 이미지에서 안전성이 깨지는 경우가 있었으며, 이는 해당 이미지가 원본과 크게 달라지는 현상으로 해석된다. - ImageNet: 대규모 네트워크에 대해 탐색 시간이 급격히 증가했지만, 제한된 변형(예: 색상 변조, 작은 이동)에서는 여전히 적대적 예제를 찾거나 안전성을 증명할 수 있었다. 비교 실험에서는 기존 적대적 예제 탐색 기법인 Fast Gradient Sign Method(FGSM), Carlini‑Wagner(CW)와 DL‑V를 동일 변형 범위에서 비교했다. FGSM과 CW는 종종 적대적 예제를 찾지 못하거나, 찾더라도 탐색이 불완전해 놓친 사례가 있었다. 반면 DL‑V는 변형 집합이 정의된 경우, 적대적 예제가 존재하면 반드시 찾아내고, 존재하지 않을 경우 SMT 기반 증명을 통해 안전성을 보장한다. 논문의 주요 기여는 다음과 같다. 1. 이미지 분류 결정에 대한 점별 안전성을 형식적으로 정의하고, 인간 인식 기반의 안전 영역과 변형 집합을 도입하였다. 2. 이산화와 층별 전파를 결합한 SMT 기반 검증 알고리즘을 설계하여, 완전성을 보장한다. 3. Z3를 활용한 실제 구현(DL‑V)을 통해 다양한 네트워크와 데이터셋에 적용, 기존 방법 대비 완전한 적대적 예제 탐색 및 안전 증명을 입증하였다. 4. 검증 결과를 적대적 예제로 활용해 네트워크 재학습에 피드백을 제공하는 실용적인 워크플로우를 제시하였다. 향후 연구 과제로는 (1) 연속적인 입력 공간에 대한 보다 정교한 이산화 기법, (2) 복합 물리적 변형(예: 날씨, 모션 블러) 모델링, (3) 다른 SMT/SAT 솔버와의 성능 비교, (4) 이미지 분류 외에 객체 검출, 시맨틱 세그멘테이션 등 복합 비전 파이프라인에 대한 확장이 제시된다.

딥러닝 이미지 분류의 안전 검증: SMT 기반 적대적 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기