시스템 호출 시퀀스 투 시퀀스 모델을 이용한 침입 예측
초록
본 논문은 시스템 호출 로그를 자연어 문장처럼 취급하여 RNN 기반 시퀀스‑투‑시퀀스(Seq2Seq) 구조와 어텐션 메커니즘을 적용한 침입 예측 모델을 제안한다. 기존 IDS가 현재 발생한 침입만을 탐지하는 데 반해, 제안 모델은 과거 시스템 호출 시퀀스를 입력으로 받아 향후 발생할 가능성이 높은 시스템 호출 시퀀스를 예측한다. ADFA‑LD 데이터셋을 이용한 실험에서 높은 예측 정확도와 함께, 예측된 시퀀스를 기존 탐지기 입력에 결합했을 때 오탐률이 크게 감소함을 확인하였다.
상세 분석
이 연구는 침입 탐지(IDS)와 침입 예측(IP) 사이의 차이를 명확히 구분하고, 예측을 위한 데이터 표현과 모델 설계에 초점을 맞춘다. 먼저 시스템 호출을 “단어”로, 호출 순서를 “문장”으로 매핑함으로써 자연어 처리(NLP)에서 성공한 언어 모델링 기법을 그대로 차용한다. RNN 중에서도 장기 의존성을 효과적으로 학습할 수 있는 GRU를 기본 셀로 선택했으며, 인코더‑디코더 구조를 통해 입력 시퀀스(소스)와 출력 시퀀스(타깃)를 각각 별도의 네트워크가 처리한다.
핵심 기술은 두 가지이다. 첫째, 동적 비율로 소스와 타깃 길이를 나누는 “동적 비례 분할” 전략이다. 이는 고정된 윈도우 길이 대신 다양한 길이의 시퀀스를 학습에 활용해 모델이 다양한 상황에 일반화될 수 있게 한다. 둘째, 어텐션 메커니즘을 도입해 디코더가 매 출력 단계마다 인코더의 모든 은닉 상태에 가중치를 부여한다. 이는 고정된 컨텍스트 벡터(c)만을 사용하는 전통적인 Seq2Seq의 정보 손실을 보완하고, 특정 시스템 호출이 공격 의도를 드러내는 경우 그 중요도를 강조한다.
데이터 증강 측면에서도 주목할 만하다. ADFA‑LD는 정상과 비정상 시퀀스 비율이 크게 차이나는 특성을 가지고 있어, 단일 길이(예: 25)로는 약 5,000개의 학습 쌍만 확보된다. 저자들은 10~30 길이의 다양한 시퀀스를 조합해 60,000여 개의 학습 샘플을 생성함으로써 모델의 일반화 능력을 크게 향상시켰다.
실험 결과는 두 단계로 평가된다. 1) 순수 예측 성능 – Top‑k 정확도와 BLEU 점수 등 NLP에서 쓰이는 지표를 활용해 예측된 시스템 호출 시퀀스가 실제 다음 시퀀스와 얼마나 일치하는지를 측정한다. 2) 침입 탐지 성능 향상 – 기존 IDS(예: SVM, Random Forest, LSTM 기반 탐지기)에 예측 시퀀스를 추가 입력으로 제공했을 때, 정확도는 유지하면서 오탐률이 현저히 낮아진다. 이는 예측된 미래 행동이 현재 로그에 대한 추가적인 문맥 정보를 제공해, 정상/비정상 경계를 더 명확히 구분하게 만든다.
한계점으로는 (1) 어휘 사전이 시스템 호출 전체를 포괄하도록 설계되었지만, 커스텀 커널이나 새로운 호출이 추가될 경우 사전 업데이트가 필요하다. (2) 어텐션 기반 디코더는 계산 비용이 증가해 실시간 적용에 제약이 있을 수 있다. (3) 실험이 ADFA‑LD 하나의 데이터셋에 국한돼 있어, 다른 운영체제나 실제 기업 환경에서의 일반화 검증이 부족하다. 향후 연구에서는 멀티‑도메인 데이터와 경량화된 어텐션 변형(예: 라이트 어텐션) 등을 탐색할 여지가 있다.
전반적으로 이 논문은 시스템 호출 로그를 시퀀스‑투‑시퀀스 언어 모델로 재구성하고, 어텐션을 통해 중요한 호출을 강조함으로써 침입 예측과 탐지 성능을 동시에 향상시킨 혁신적인 접근을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기