Deep Learning for Android Malware Defenses: a Systematic Literature Review

Reading time: 6 minute
...
Featured Image

📝 Abstract

Malicious applications (particularly those targeting the Android platform) pose a serious threat to developers and end-users. Numerous research efforts have been devoted to developing effective approaches to defend against Android malware. However, given the explosive growth of Android malware and the continuous advancement of malicious evasion technologies like obfuscation and reflection, Android malware defense approaches based on manual rules or traditional machine learning may not be effective. In recent years, a dominant research field called deep learning (DL), which provides a powerful feature abstraction ability, has demonstrated a compelling and promising performance in a variety of areas, like natural language processing and computer vision. To this end, employing deep learning techniques to thwart Android malware attacks has recently garnered considerable research attention. Yet, no systematic literature review focusing on deep learning approaches for Android Malware defenses exists. In this paper, we conducted a systematic literature review to search and analyze how deep learning approaches have been applied in the context of malware defenses in the Android environment. As a result, a total of 132 studies covering the period 2014-2021 were identified. Our investigation reveals that, while the majority of these sources mainly consider DL-based on Android malware detection, 53 primary studies (40.1 percent) design defense approaches based on other scenarios. This review also discusses research trends, research focuses, challenges, and future research directions in DL-based Android malware defenses.

💡 Analysis

Malicious applications (particularly those targeting the Android platform) pose a serious threat to developers and end-users. Numerous research efforts have been devoted to developing effective approaches to defend against Android malware. However, given the explosive growth of Android malware and the continuous advancement of malicious evasion technologies like obfuscation and reflection, Android malware defense approaches based on manual rules or traditional machine learning may not be effective. In recent years, a dominant research field called deep learning (DL), which provides a powerful feature abstraction ability, has demonstrated a compelling and promising performance in a variety of areas, like natural language processing and computer vision. To this end, employing deep learning techniques to thwart Android malware attacks has recently garnered considerable research attention. Yet, no systematic literature review focusing on deep learning approaches for Android Malware defenses exists. In this paper, we conducted a systematic literature review to search and analyze how deep learning approaches have been applied in the context of malware defenses in the Android environment. As a result, a total of 132 studies covering the period 2014-2021 were identified. Our investigation reveals that, while the majority of these sources mainly consider DL-based on Android malware detection, 53 primary studies (40.1 percent) design defense approaches based on other scenarios. This review also discusses research trends, research focuses, challenges, and future research directions in DL-based Android malware defenses.

📄 Content

악성 애플리케이션(특히 Android 플랫폼을 표적으로 하는 경우)은 개발자와 최종 사용자 모두에게 심각한 위협을 초래한다. 이러한 위협은 개인 정보 유출, 금전적 손실, 시스템 불안정 등 다양한 형태로 나타나며, Android 생태계가 전 세계 모바일 기기의 대부분을 차지하고 있기 때문에 그 파급 효과는 매우 크다. 이에 따라 Android 악성코드에 효과적으로 대응하기 위한 방어 메커니즘을 설계하고 구현하려는 연구가 다수 진행되어 왔으며, 기존에는 정적 분석 기반의 시그니처 매칭, 동적 행동 분석, 그리고 전통적인 머신러닝 기법에 의존하는 접근법이 주를 이뤘다.

하지만 Android 악성코드의 양이 폭발적으로 증가하고, 악성코드 제작자들이 난독화(obfuscation), 리플렉션(reflection), 동적 로딩(dynamic loading) 등과 같은 회피(evasion) 기술을 지속적으로 발전시킴에 따라, 단순히 수동으로 규칙을 정의하거나 전통적인 머신러닝 모델에 의존하는 방어 체계는 최신 위협을 충분히 탐지하거나 차단하기 어려운 상황에 직면하고 있다. 이러한 배경에서 최근 몇 년간 딥러닝(Deep Learning, 이하 DL)이라는 강력한 특징 추상화(feature abstraction) 능력을 갖춘 기술이 부각되었다. DL은 대량의 데이터에서 자동으로 복잡하고 추상적인 특징을 학습할 수 있어, 자연어 처리(NLP), 컴퓨터 비전(CV), 음성 인식 등 다양한 분야에서 기존 방법들을 크게 능가하는 성과를 보여주고 있다.

이러한 성공 사례에 힘입어, Android 악성코드 공격을 방어하기 위해 DL 기술을 적용하는 연구도 급격히 증가하고 있다. 구체적으로는 악성코드의 바이너리 파일, 권한 선언, API 호출 시퀀스, 시스템 로그 등 다양한 형태의 데이터를 입력으로 사용하여, 악성 여부를 판단하거나 악성 행위의 패턴을 사전에 예측하는 모델을 구축하는 시도가 활발히 이루어지고 있다. 그럼에도 불구하고, 현재까지 Android 악성코드 방어에 초점을 맞춘 DL 기반 접근법을 체계적으로 정리하고 평가한 문헌 리뷰는 존재하지 않는다.

본 논문에서는 이러한 연구 공백을 메우고자, Android 환경에서 악성코드 방어와 관련된 DL 접근법이 어떻게 적용되고 발전해 왔는지를 포괄적으로 조사하기 위해 체계적인 문헌 리뷰(systematic literature review, SLR)를 수행하였다. 구체적인 연구 절차는 다음과 같다. 먼저 2014년부터 2021년까지의 기간 동안 주요 학술 데이터베이스(예: IEEE Xplore, ACM Digital Library, SpringerLink, ScienceDirect 등)와 학술 회의·저널을 대상으로 “Android”, “malware”, “deep learning”, “defense” 등 키워드를 조합한 검색 쿼리를 설계하였다. 검색 결과로 도출된 논문들에 대해 중복 제거, 초록 및 본문 검토, 포함·제외 기준 적용을 거쳐 최종적으로 132개의 연구 논문을 선정하였다.

선정된 132개의 연구를 상세히 분석한 결과, 대부분(약 60% 이상)의 논문이 Android 악성코드 탐지(detection)를 목적으로 DL 모델을 설계하고 평가했으며, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), LSTM(Long Short‑Term Memory), Graph Neural Network 등 다양한 네트워크 구조를 활용하였다. 반면, 53개의 주요 연구(전체의 40.1%)는 탐지 외의 방어 시나리오—예를 들어 악성코드 샘플의 자동 격리(isolation), 실시간 행동 차단(real‑time mitigation), 악성코드 변형에 대한 견고성 강화(robustness enhancement), 그리고 악성코드 분석 파이프라인 자체의 보안 강화 등—에 초점을 맞추어 DL 기반 방어 메커니즘을 설계하였다. 이러한 연구들은 전통적인 탐지‑후‑대응 모델을 넘어, 사전 예방(prevention) 또는 사후 복구(post‑remediation) 단계에서 DL을 활용하는 새로운 방어 패러다임을 제시하고 있다.

또한 본 리뷰는 현재 DL 기반 Android 악성코드 방어 연구가 집중하고 있는 주요 주제와 트렌드를 다음과 같이 정리한다.

  1. 데이터 다양화 및 전처리: 악성코드 샘플의 불균형 문제를 해결하기 위해 데이터 증강(data augmentation), 샘플 재샘플링, 그리고 멀티모달(multi‑modal) 특성 결합이 활발히 시도되고 있다.
  2. 모델 경량화: 모바일 디바이스의 제한된 연산·메모리 자원을 고려하여, 모델 압축(model compression), 지식 증류(knowledge distillation), 그리고 Edge‑AI 친화적인 경량 네트워크 설계가 중요한 연구 주제로 부상하고 있다.
  3. 설명 가능 인공지능(XAI): DL 모델의 ‘블랙박스’ 특성으로 인해, 악성코드 판단 근거를 인간이 이해할 수 있도록 시각화(visualization)·해석(interpretation) 기법을 적용하는 연구가 증가하고 있다.
  4. 대회·벤치마크: 최신 악성코드 데이터셋(예: Drebin, AndroZoo, VirusShare)과 공개 대회(예: Malware Classification Challenge)에서 제시된 성능 지표를 기준으로 모델을 비교·평가하는 경향이 강해지고 있다.

하지만 이러한 진보에도 불구하고, 현재 DL 기반 방어 기술이 직면한 몇 가지 근본적인 과제가 존재한다. 첫째, 악성코드 회피 기술의 지속적인 진화이다. 난독화, 코드 재구성, 동적 로딩 등으로 인해 동일한 악성 행위라도 표면적인 코드 형태가 크게 달라질 수 있어, 모델이 학습한 특징이 쉽게 무력화될 위험이 있다. 둘째, 데이터 라벨링 비용이다. 정확한 악성·정상 라벨을 부여하기 위해서는 전문가 수준의 정밀 분석이 필요하지만, 이는 시간·인력·비용 측면에서 비효율적이다. 셋째, 실시간 적용성이다. 모바일 환경에서 실시간으로 악성코드를 탐지·차단하려면 모델 추론 속도와 전력 소모를 동시에 최소화해야 하는데, 현재 많은 고성능 DL 모델이 이러한 요구를 만족시키지 못한다. 넷째, 보안성 검증이다. DL 모델 자체가 적대적 공격(adversarial attack)에 취약할 수 있어, 악성코드 제작자가 의도적으로 모델을 혼란시키는 입력을 생성할 가능성이 존재한다.

마지막으로, 본 리뷰는 향후 연구 방향에 대해 다음과 같은 제언을 제시한다.

  • 대규모 멀티모달 학습: 바이너리 코드, 권한 매니페스트, 실행 로그, 네트워크 트래픽 등 다양한 데이터 소스를 통합하여 보다 풍부한 특징을 학습함으로써 회피 기술에 대한 내성을 강화한다.
  • 적대적 방어 메커니즘: 적대적 예제(adversarial examples)에 대한 방어 전략을 DL 모델 설계 단계에 포함시켜, 악성코드 제작자가 모델을 교란시키는 시도를 사전에 차단한다.
  • 연속 학습(continual learning) 및 온라인 업데이트: 새로운 악성코드 패턴이 등장할 때마다 모델을 재학습하는 대신, 지속적으로 지식을 업데이트할 수 있는 메커니즘을 도입한다.
  • 프라이버시 보호와 연합 학습(Federated Learning): 사용자 디바이스에 저장된 민감한 데이터를 외부 서버로 전송하지 않고도 공동 모델을 학습함으로써 개인정보 보호와 동시에 방어 성능을 향상시킨다.
  • 표준화된 평가 프레임워크: 다양한 연구에서 사용되는 데이터셋·평가지표·실험 환경을 통일하여, 연구 결과의 재현성 및 비교 가능성을 높인다.

요약하면, 본 논문은 2014년부터 2021년까지 발표된 132개의 Android 악성코드 방어 관련 연구를 체계적으로 검토함으로써, 현재 DL 기반 방어 기술이 어느 정도 성숙 단계에 이르렀는지, 그리고 아직 해결해야 할 핵심 과제가 무엇인지를 명확히 제시한다. 이러한 분석은 학계·산업계가 향후 Android 보안 강화에 있어 딥러닝을 어떻게 효과적으로 활용할 수 있을지에 대한 전략적 로드맵을 제공한다.

Start searching

Enter keywords to search articles

↑↓
ESC
⌘K Shortcut