딥러닝으로 국가 수준 APT 자동 분류와 전이 학습 구현
본 논문은 Cuckoo Sandbox에서 추출한 원시 동적 분석 보고서를 그대로 입력으로 사용해 심층 신경망(DNN)을 학습시킴으로써, 국가별 고도 지속 위협(APT) 귀속과 APT 패밀리 분류를 자동화한다. 동일한 원시 특징을 이용해 패밀리 분류 모델을 먼저 학습하고, 그 중간 계층의 추상화된 표현을 전이 학습(transfer learning)하여 국가 귀속 모델에 적용한다. 중국·러시아 APT 1,000개 테스트셋에서 98.6%의 정확도를 …
저자: Ishai Rosenberg, Guillaume Sicard, Eli David
본 논문은 국가 차원의 고도 지속 위협(APT) 악성코드에 대한 자동 귀속 및 패밀리 분류 문제를 해결하기 위해, 심층 신경망(DNN)과 전이 학습(transfer learning) 기법을 결합한 새로운 프레임워크를 제시한다. 연구 배경으로는 기존 저자 식별 기법이 단일 개발자 혹은 동일 코드베이스에 의존한다는 한계와, APT가 다수의 사이버 유닛과 복잡한 은폐 기법을 사용해 특징 추출을 어렵게 만든다는 점을 들었다. 또한, 공개된 APT 샘플이 극히 적어 데이터 부족 문제가 심각함을 강조한다.
관련 연구에서는 바이너리 코드 저자 식별, 악성코드 군집화, 동적 분석 기반 악성코드 분류 등이 소개되었으며, 이들 대부분이 수작업 피처 엔지니어링에 의존하거나 동일 패밀리 내 변형에만 적용 가능함을 지적한다. 특히, 국가 수준 APT 귀속을 직접 다룬 선행 연구는 거의 없으며, 기존 방법들은 정확도나 실험 규모가 제한적이었다.
논문은 문제 정의를 두 가지로 구분한다. 첫째, 주어진 실행 파일이 어느 국가에 의해 개발되었는지를 판별하는 ‘국가 귀속’ 문제; 둘째, 해당 파일이 어느 APT 패밀리에 속하는지를 판단하는 ‘패밀리 분류’ 문제이다. 두 문제 모두 다중 클래스 분류이며, 라벨이 서로 독립적일 수 있다.
핵심 방법론은 Cuckoo Sandbox에서 생성된 JSON 형식의 동적 분석 보고서를 **전혀 파싱하지 않고** 텍스트 토큰(단어) 수준으로만 추출해 원시 피처로 사용하는 것이다. 여기에는 API 호출명, 파일 경로, 레지스트리 키, IP 주소, PE 섹션 정보 등 모든 문자열이 포함된다. 이렇게 하면 수작업 파싱 단계에서 발생할 수 있는 정보 손실을 방지하고, 모델이 자체적으로 의미 있는 패턴을 학습하도록 만든다.
먼저, 원시 텍스트를 Bag‑of‑Words 형태로 벡터화하고, 12계층 완전 연결(fully‑connected) DNN에 입력한다. 각 은닉층은 이전 층의 출력을 기반으로 점진적인 추상화를 수행하며, 최종 Softmax 레이어는 패밀리 라벨을 예측한다. 학습 과정에서는 교차 엔트로피 손실과 Adam 옵티마이저를 사용하고, 과적합 방지를 위해 dropout 및 L2 정규화를 적용한다.
패밀리 분류 모델이 충분히 학습된 후, 최상위 Softmax 레이어를 제외한 가중치와 편향을 그대로 가져와 새로운 Softmax 레이어(국가 라벨 수에 맞게)만 재학습한다. 이를 전이 학습이라고 하며, 패밀리와 국가 라벨이 공유하는 행동 양식(예: 특정 C&C 인프라, 암호화 방식) 덕분에 높은 일반화 성능을 얻는다.
실험에서는 중국과 러시아에서 유출된 1,000개의 APT 샘플을 사용했으며, 80%를 학습, 10%를 검증, 10%를 테스트 셋으로 분할했다. 패밀리 분류 정확도는 96.4%였고, 전이 학습 기반 국가 귀속 정확도는 98.6%에 달했다. 특히, 특징 중요도 분석을 통해 API 호출 외에도 ‘16진수 값(PE 섹션 크기)’과 같은 비전형적인 토큰이 높은 가중치를 갖는 것이 확인되었다. 이는 전통적인 피처 엔지니어링에서는 간과되기 쉬운 정보가 모델에 의해 자동으로 활용될 수 있음을 보여준다.
논문의 한계로는 국가 종류가 두 개에 불과하고, 샘플 규모가 아직 작다는 점, 그리고 원시 텍스트를 그대로 처리함에 따라 메모리·연산 비용이 높다는 점을 들 수 있다. 향후 연구 방향으로는 다국가·다유닛 데이터셋 확대, 멀티라벨(한 샘플이 여러 사이버 유닛에 속할 수 있음) 모델링, 경량화된 텍스트 임베딩(예: FastText, BERT) 적용, 그리고 실시간 샌드박스 연동을 통한 온라인 탐지 시스템 구축을 제시한다.
결론적으로, 본 연구는 원시 동적 분석 데이터를 그대로 활용한 DNN 기반 APT 패밀리 및 국가 귀속 분류가 가능함을 실증하고, 전이 학습을 통해 데이터 부족 문제를 효과적으로 완화할 수 있음을 보여준다. 이는 사이버 위협 인텔리전스 분야에서 자동화된 국가 수준 악성코드 분석 파이프라인 구축에 중요한 전기를 마련한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기