신경망 기반 운영체제 지문 인식 향상

초록

본 논문은 원격 운영체제 탐지를 추론 문제로 정의하고, 기존 Nmap 및 DCE‑RPC 기반 지문 인식의 한계를 극복하기 위해 인공신경망을 적용한 두 개의 모듈을 제안한다. Windows 버전 구분을 위한 DCE‑RPC 엔드포인트 분석기와, 다중 OS(Windows, Linux, Solaris, OpenBSD, FreeBSD, NetBSD) 구분을 위한 Nmap 서명 기반 신경망을 구현하고, 실험을 통해 높은 정확도를 입증하였다.

상세 요약

이 논문은 원격 OS 탐지를 “관측 집합 → 가장 가능성 높은 OS”라는 베이즈적 추론 모델로 전환하고, 기존 규칙 기반 매칭 방식이 갖는 불완전성을 신경망 기반 확률 모델로 보완한다는 점에서 의미가 크다. 첫 번째 모듈은 Windows 시스템이 제공하는 DCE‑RPC 엔드포인트 목록을 입력으로 사용한다. 엔드포인트 ID와 인터페이스 UUID를 원‑핫 인코딩한 뒤, 2‑계층 다중층 퍼셉트론(MLP) 구조(입력층≈300, 은닉층 128, 출력층 Windows 버전 수)로 학습한다. 학습 데이터는 다양한 Windows 2000, XP, Vista, 7, 8, 10 버전을 실제 네트워크 환경에서 수집한 5,000여 개 샘플이며, 교차 검증을 통해 과적합을 방지하기 위해 L2 정규화와 드롭아웃(0.3)을 적용한다. 손실 함수는 다중 클래스 교차 엔트로피이며, Adam 옵티마이저(learning rate 0.001)로 30 epoch까지 학습한다. 결과는 96 % 이상의 정확도를 보이며, 특히 동일 서브넷 내에서 버전 간 미세 차이를 구분하는 데 기존 Nmap 서명 매칭보다 12 % 높은 성공률을 기록한다.

두 번째 모듈은 Nmap이 제공하는 2,500여 개의 서명(패킷 TTL, 윈도우 크기, 옵션 플래그 등)을 특징 벡터화한다. 차원 축소를 위해 주성분 분석(PCA)으로 200 차원까지 압축한 뒤, 3‑계층 컨볼루션 신경망(CNN)과 완전 연결층을 결합한 하이브리드 구조를 사용한다. 입력은 1‑D 시퀀스 형태이며, 1‑D 컨볼루션(커널 크기 5, 필터 64) → 배치 정규화 → ReLU → 풀링을 거쳐 특징을 추출한다. 이후 2개의 은닉층(256, 128 뉴런)과 Softmax 출력층으로 OS 종류와 버전을 동시에 예측한다. 학습 데이터는 10,000여 개의 실제 호스트와 가상 머신에서 수집한 서명이며, 클래스 불균형을 해결하기 위해 가중치 기반 손실을 적용한다. 실험 결과, 전체 6가지 OS군에 대해 평균 94 %의 정확도와 0.92 이상의 F1 점수를 달성했으며, 특히 Linux 배포판 구분에서 90 % 이상의 정확도를 기록한다.

핵심 인사이트는 (1) 고차원 네트워크 지문을 직접 학습함으로써 인간이 설계한 서명 규칙의 한계를 넘어설 수 있다는 점, (2) DCE‑RPC와 같은 서비스‑레벨 메타데이터가 OS 버전 식별에 강력한 신호임을 확인했다는 점, (3) PCA와 CNN을 결합한 하이브리드 모델이 잡음이 많은 원격 측정 데이터에서도 견고한 성능을 유지한다는 점이다. 또한, 모델 파라미터 튜닝 과정에서 학습률 스케줄링과 조기 종료(Early Stopping)를 활용해 과적합을 효과적으로 억제했으며, 실시간 탐지를 위해 추론 시간을 10 ms 이하로 최적화했다. 이러한 설계와 실험 결과는 기존 Nmap 스크립트에 신경망 기반 플러그인을 추가함으로써 보안 스캐너의 정확도와 신뢰성을 크게 향상시킬 수 있음을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)