시스템 호출 그래프 기반 악성코드 분류 소셜 네트워크 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 악성코드 실행 시 발생하는 시스템 호출을 그래프로 모델링하고, 소셜 네트워크 분석 기법을 적용해 그래프 구조 특징을 추출한다. 추출된 특징(특히 degree centrality 등 영향 기반 지표)을 이용해 머신러닝 분류기를 학습시켜 악성코드 패밀리를 96% 이상의 정확도로 구분한다.

상세 분석

본 연구는 악성코드 탐지·분류 분야에 소셜 네트워크 분석(SNA) 기법을 도입한 점이 가장 큰 차별점이다. 먼저 샘플 악성코드를 샌드박스 환경에서 실행시켜 얻은 시스템 호출 로그를 기반으로 호출 간 순서를 엣지로, 호출 자체를 노드로 하는 유향 그래프를 구축한다. 이때 동일 호출이 여러 번 등장하면 가중치를 부여해 다중 엣지를 허용한다. 구축된 그래프는 전통적인 SNA 지표—degree distribution, degree centrality, betweenness centrality, average shortest path length, clustering coefficient, network density, component ratio—를 계산한다.

특히 degree centrality는 특정 호출이 다른 호출과 얼마나 많이 연결되는지를 나타내며, 악성코드가 특정 API를 집중적으로 이용하는 경향을 포착한다. 실험 결과, degree centrality와 같은 영향 기반 지표는 패밀리 간 차이를 명확히 드러내어 높은 분류 성능을 보였으며, 반면 clustering coefficient나 network density와 같은 전반적인 구조 지표는 패밀리 구분에 큰 기여를 하지 못했다.

특징 선택 단계에서는 상관관계 분석과 정보 이득(Information Gain) 기반 필터링을 적용해 10여 개의 핵심 특징을 선정하였다. 이후 다중 클래스 분류를 위해 Random Forest, Support Vector Machine, k-Nearest Neighbor 등 여러 알고리즘을 실험했으며, Random Forest가 가장 높은 정확도(96.3%)와 안정적인 F1-score를 기록했다. 교차 검증(k‑fold, k=10) 결과도 일관된 성능을 보여 과적합 위험이 낮음을 확인했다.

또한, 동일 악성코드 패밀리 내에서도 변종이 존재함을 고려해 샘플을 시간적 순서에 따라 나누어 훈련·테스트 셋을 구성했으며, 이 경우에도 94% 이상의 정확도를 유지했다. 이는 제안된 그래프 기반 특징이 악성코드의 진화에 강인함을 의미한다.

한계점으로는 시스템 호출만을 사용하기 때문에 파일 입출력, 레지스트리 조작 등 비호출 기반 행위는 포착하지 못한다는 점이다. 또한, 샌드박스 환경에서의 실행이 실제 환경과 차이가 있을 경우 그래프 구조가 왜곡될 가능성이 있다. 향후 연구에서는 네트워크 트래픽, 메모리 덤프 등 다중 모달 데이터를 결합하고, 동적 그래프(시간에 따라 변하는 호출 관계)를 모델링해 실시간 탐지 성능을 향상시키는 방향을 제시한다.

시스템 호출 그래프 기반 악성코드 분류 소셜 네트워크 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기