Towards Black-box Attacks on Deep Learning Apps

Reading time: 4 minute
...
Featured Image

📝 Abstract

Deep learning is a powerful weapon to boost application performance in many fields, including face recognition, object detection, image classification, natural language understanding, and recommendation system. With the rapid increase in the computing power of mobile devices, developers can embed deep learning models into their apps for building more competitive products with more accurate and faster responses. Although there are several works about adversarial attacks against deep learning models in mobile apps, they all need information about the models’ internals (i.e., structures, weights) or need to modify the models. In this paper, we propose an effective black-box approach by training a substitute model to spoof the deep learning system inside the apps. To evaluate our approach, we select 10 real-world deep-learning apps with high popularity from Google Play to perform black-box adversarial attacks. Through the study, we find three factors that can influence the performance of attacks. Our approach can reach a relatively high attack success rate of 66.60% on average. Compared with other adversarial attacks on mobile deep learning models, in terms of the average attack success rates, our approach outperforms counterparts by 27.63%.

💡 Analysis

Deep learning is a powerful weapon to boost application performance in many fields, including face recognition, object detection, image classification, natural language understanding, and recommendation system. With the rapid increase in the computing power of mobile devices, developers can embed deep learning models into their apps for building more competitive products with more accurate and faster responses. Although there are several works about adversarial attacks against deep learning models in mobile apps, they all need information about the models’ internals (i.e., structures, weights) or need to modify the models. In this paper, we propose an effective black-box approach by training a substitute model to spoof the deep learning system inside the apps. To evaluate our approach, we select 10 real-world deep-learning apps with high popularity from Google Play to perform black-box adversarial attacks. Through the study, we find three factors that can influence the performance of attacks. Our approach can reach a relatively high attack success rate of 66.60% on average. Compared with other adversarial attacks on mobile deep learning models, in terms of the average attack success rates, our approach outperforms counterparts by 27.63%.

📄 Content

딥러닝은 얼굴 인식, 객체 탐지, 이미지 분류, 자연어 이해, 추천 시스템 등 다양한 분야에서 애플리케이션 성능을 크게 향상시킬 수 있는 강력한 무기이다. 특히 모바일 디바이스의 연산 능력이 급격히 향상됨에 따라 개발자들은 딥러닝 모델을 앱에 직접 내장하여 보다 정확하고 빠른 응답을 제공함으로써 경쟁력 있는 제품을 만들 수 있게 되었다. 현재까지 모바일 앱에 탑재된 딥러닝 모델을 대상으로 한 적대적 공격에 관한 연구가 다수 존재하지만, 이들 대부분은 모델의 내부 구조(예: 네트워크 아키텍처, 파라미터 가중치 등)에 대한 정보를 필요로 하거나 모델 자체를 수정해야 하는 전제 조건을 가지고 있다. 이러한 제한점은 실제 서비스 환경에서 공격자가 모델 내부에 접근하기 어려운 현실과 맞물려 실용적인 위협 모델을 구현하는 데 큰 장벽이 된다.

본 논문에서는 이러한 제약을 극복하기 위해 블랙박스 환경에서도 효과적으로 작동할 수 있는 새로운 접근 방식을 제안한다. 구체적으로, 우리는 앱 내부에 존재하는 딥러닝 시스템을 속이기 위해 대체 모델(substitute model)을 학습시키는 방법을 채택한다. 대체 모델은 원본 모델에 대한 직접적인 접근 없이도 입력‑출력 관계만을 관찰함으로써 점차 원본 모델의 행동을 모방하도록 훈련된다. 이렇게 훈련된 대체 모델을 이용하면, 원본 모델의 구조나 가중치에 대한 사전 지식 없이도 적대적 샘플을 생성하고, 이를 통해 블랙박스 적대적 공격을 수행할 수 있다.

제안된 방법의 실효성을 검증하기 위해 우리는 구글 플레이(Google Play)에서 높은 다운로드 수와 평점을 기록하고 있는 실제 딥러닝 기반 앱 10개를 선정하였다. 선정된 앱들은 얼굴 인식, 이미지 분류, 객체 검출 등 다양한 기능을 제공하며, 각각이 독립적인 딥러닝 파이프라인을 내장하고 있다. 각 앱에 대해 블랙박스 적대적 공격을 수행하면서, 우리는 공격 성공률에 영향을 미치는 주요 요인을 세 가지로 규명하였다. 첫 번째 요인은 입력 데이터의 전처리 방식이며, 전처리 단계에서 적용되는 정규화나 리사이징 등의 변환이 적대적 샘플의 효과에 큰 영향을 미친다. 두 번째 요인은 모델이 사용하는 출력 형태(예: 확률 분포, 라벨 인덱스 등)이며, 출력 정보의 granularity가 대체 모델의 학습 정확도와 직결된다. 세 번째 요인은 앱이 내부적으로 적용하는 방어 메커니즘(예: 입력 검증, 잡음 추가 등)으로, 이러한 방어가 존재할 경우 적대적 샘플이 원본 모델에 도달하기 전에 변형될 가능성이 높다.

실험 결과, 제안된 블랙박스 접근 방식은 평균 66.60%에 달하는 비교적 높은 공격 성공률을 기록하였다. 이는 기존에 제안된 모바일 딥러닝 모델에 대한 적대적 공격 기법들과 비교했을 때, 평균 성공률 기준으로 27.63% 포인트 높은 수치이다. 특히, 모델 내부 정보를 전혀 활용하지 못하는 순수 블랙박스 상황에서도 이러한 성과를 달성했다는 점은 본 방법의 실용성을 크게 부각시킨다.

요약하면, 본 연구는 (1) 모델 내부 구조나 가중치에 대한 접근 없이도 대체 모델을 통해 효과적인 적대적 공격을 수행할 수 있음을, (2) 실제 서비스 환경에서 널리 사용되는 10개의 딥러닝 기반 모바일 앱을 대상으로 실험을 진행하여 제안 방법의 일반성을 입증했음을, (3) 입력 전처리, 출력 형태, 방어 메커니즘이라는 세 가지 핵심 요인이 공격 성공률에 중대한 영향을 미친다는 사실을 밝혀냈다. 이러한 결과는 모바일 환경에서 딥러닝 모델을 보호하기 위한 새로운 방어 전략 수립에 중요한 시사점을 제공하며, 향후 블랙박스 상황에서도 보다 정교한 적대적 공격을 탐지하고 완화할 수 있는 연구 방향을 제시한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut