LLM 기반 의미 임베딩과 오토인코더를 활용한 고급 지속 위협 탐지
초록
본 논문은 시스템 로그를 자연어 형태로 변환한 뒤, 사전학습된 대형 언어 모델인 all‑mpnet‑base‑v2 로 의미 임베딩을 생성하고, 이를 자동인코더(Autoencoder)로 재구성 오류 기반 이상 탐지를 수행한다. DARPA Transparent Computing 데이터셋에서 Isolation Forest, One‑Class SVM, PCA 등 전통적인 비지도 방법보다 높은 AUC‑ROC를 달성함으로써, 로그의 의미적 맥락을 활용한 탐지의 효과성을 입증한다.
상세 분석
이 연구는 기존 로그 기반 APT 탐지에서 흔히 발생하는 ‘통계‑기반’ 혹은 ‘Bag‑of‑Words’ 접근의 한계를 의미 임베딩을 통해 극복하고자 한다. 먼저 시스템 로그를 프로세스‑레벨의 프로비넌스 레코드로 정규화하고, 각 레코드를 “Process 1054 started /bin/bash …”와 같은 자연어 문장으로 변환한다는 점은 로그와 인간 이해 사이의 간극을 메우는 창의적인 설계이다. 이러한 텍스트화는 사전학습된 변환기 모델인 all‑mpnet‑base‑v2에 입력될 수 있게 하며, MPNet이 BERT와 XLNet의 장점을 결합한 구조와 대규모 대조 학습(constrastive learning)으로 얻은 768‑차원 벡터는 일반적인 TF‑IDF나 n‑gram 기반 피처보다 풍부한 문맥 정보를 담는다.
임베딩을 자동인코더에 투입해 정상 행위만을 학습시키고, 재구성 오차를 이상 점수로 활용하는 방식은 비지도 학습의 전형적인 흐름을 따른다. 논문에서는 단순한 vanilla autoencoder를 사용했으며, 15 epoch 학습 후 훈련·검증 손실이 거의 일치하는 것을 통해 과적합이 최소화되었음을 시각적으로 확인한다. 재구성 오차가 큰 샘플을 악성 APT로 분류하는 기준은 검증 데이터셋을 통해 임계값을 설정했으며, 이는 실제 운영 환경에서 실시간 탐지 임계값을 조정하는 데 유용한 절차다.
실험은 DARPA TC 데이터셋의 다섯 가지 시나리오(5DIR, CADETS, CLEARSCOPE, THEIA, TRACE)를 사용했으며, 각 시나리오를 프로세스 이벤트, 실행, 부모‑자식 관계, 네트워크 흐름, 전체 통합 등 다섯 가지 뷰로 분할해 세밀한 성능 분석을 수행했다. 결과는 t‑SNE 시각화에서 정상 샘플이 밀집된 클러스터를 형성하고, 이상 샘플이 외부에 분산되는 형태로 나타났으며, 이는 의미 임베딩이 정상·비정상 행위를 효과적으로 구분함을 시사한다. AUC‑ROC 측면에서 Isolation Forest, One‑Class SVM, PCA 대비 일관된 우위를 보였으며, 특히 데이터 불균형이 극심한 상황(악성 비율 <0.004%)에서도 높은 탐지율을 유지한다.
하지만 몇 가지 한계도 존재한다. 첫째, 로그를 자연어 문장으로 변환하는 과정은 도메인‑특화 템플릿 설계가 필요하며, 새로운 로그 포맷이 등장하면 재구성이 요구된다. 둘째, MPNet 임베딩 자체가 768 차원으로 고차원이며, GPU 메모리와 연산 비용이 크게 증가한다. 실시간 탐지를 위해서는 배치 처리와 스트리밍 파이프라인 최적화가 필수적이다. 셋째, 자동인코더는 재구성 오차만을 기반으로 판단하므로, 정상 행위 중에도 드물게 높은 오차가 발생할 경우 오탐이 늘어날 가능성이 있다. 마지막으로 비교 대상이 전통적인 비지도 모델에 국한되어 있어, 최신 Graph Neural Network 기반 APT 탐지나 Transformer‑Encoder‑Decoder 구조와의 직접적인 성능 비교가 부족하다. 향후 연구에서는 경량화된 임베딩(예: Distil‑MPNet)이나 멀티‑모달(네트워크 트래픽·파일 해시) 결합, 그리고 설명 가능한 AI 기법을 도입해 탐지 결과의 해석성을 높이는 방향이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기