명시적 암시적 그래프와 시계열 모델을 결합한 사내 위협 탐지 프레임워크

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.18483
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

사내 위협 탐지는 신뢰받는 내부 사용자의 은밀한 악의적 행위 때문에 사이버 보안에서 여전히 큰 난제이다. 본 논문은 명시적 그래프와 암시적 그래프를 통합하고 시간적 요소를 추가한 새로운 사후형 사내 위협 탐지(ITD) 프레임워크를 제안한다. 명시적 그래프는 조직 네트워크 내 사용자 활동을 사전에 정의된 규칙으로 구성해 행동 간 명시적 관계를 드러낸다. 반면, 명시적 그래프의 잡음과 최적화 부족을 보완하기 위해 Gumbel‑softmax 기법을 이용해 특징 유사도 기반의 암시적 그래프를 생성한다. 두 그래프는 각각 별도의 그래프 컨볼루션 네트워크(GCN)로 처리돼 노드 임베딩을 만든 뒤, 어텐션 메커니즘으로 결합해 위협 탐지에 중요한 특징을 강조한다. 최종 임베딩은 양방향 LSTM(Bi‑LSTM)에 입력되어 사용자의 행동 시계열을 모델링하고, 확률 점수가 사전 정의된 임계값 이하인 경우 이상 활동으로 판정한다. CERT의 r5.2와 r6.2 데이터셋에 대한 실험 결과, 제안 모델은 r5.2에서 AUC 98.62, 탐지율 100 %, 오탐률 0.05 %를, r6.2에서는 AUC 88.48, 탐지율 80.15 %, 오탐률 0.15 %를 기록하며 기존 최첨단 방법들을 크게 능가하였다. 이는 명시적·암시적 그래프와 고급 시계열 모델을 결합함으로써 복잡한 환경에서도 정상·비정상을 효과적으로 구분할 수 있는 강인한 ITD 솔루션을 제공함을 의미한다.

💡 논문 핵심 해설 (Deep Analysis)

본 연구는 사내 위협 탐지 분야에서 그래프 기반 표현과 시계열 모델링을 융합한 새로운 패러다임을 제시한다. 먼저 명시적 그래프를 구축하는 방식은 기존 연구에서 흔히 사용되는 로그 기반 관계 추출과 유사하지만, 저자는 사전에 정의된 규칙을 통해 네트워크 흐름, 파일 접근, 인증 이벤트 등을 정형화된 엣지로 변환한다는 점에서 구현의 투명성을 확보한다. 이러한 명시적 그래프는 인간 전문가가 설계한 규칙에 기반하므로 해석 가능성이 높지만, 실제 운영 환경에서는 로그 누락, 비정형 행위, 정책 변화 등으로 인해 잡음이 발생하고, 규칙 자체가 최신 위협에 대응하지 못하는 한계가 있다.

이를 보완하기 위해 도입된 암시적 그래프는 Gumbel‑softmax 기법을 활용해 연속적인 특징 유사도를 이산적인 인접 행렬 형태로 샘플링한다. Gumbel‑softmax는 미분 가능한 샘플링을 가능하게 하여 그래프 구조 자체를 학습 과정에 포함시킬 수 있게 한다. 결과적으로 명시적 그래프가 포착하지 못한 잠재적 연관성을 자동으로 발견하고, 잡음에 강인한 구조를 형성한다. 두 그래프를 각각 독립적인 GCN에 입력함으로써 명시적·암시적 정보가 별도로 정제된 뒤, 어텐션 레이어에서 중요한 노드와 특징에 가중치를 부여한다. 이 단계는 단순히 임베딩을 연결(concatenation)하는 것보다 정보의 시너지 효과를 극대화한다는 점에서 의미가 크다.

시계열 모델링에 Bi‑LSTM을 선택한 이유는 사용자의 행동이 시간에 따라 비대칭적이고 장기 의존성을 가질 가능성이 높기 때문이다. 양방향 구조는 과거와 미래 컨텍스트를 동시에 고려해 각 시점의 임베딩을 풍부하게 만든다. 최종 이상 탐지 단계에서는 확률 점수가 사전 정의된 임계값 이하인 경우를 이상으로 판단하는데, 이는 실제 운영 환경에서 경보 발생 빈도를 조절할 수 있는 실용적인 설계라 할 수 있다.

실험은 CERT의 r5.2와 r6.2 두 데이터셋을 사용했으며, r5.2는 비교적 정형화된 시나리오, r6.2는 복잡하고 노이즈가 많은 환경을 제공한다. 제안 모델은 r5.2에서 AUC 98.62, 탐지율 100 %라는 거의 완벽에 가까운 성능을 보였으며, 오탐률도 0.05 %로 매우 낮았다. r6.2에서는 AUC 88.48, 탐지율 80.15 %로 다소 성능 저하가 있었지만, 여전히 기존 최첨단 모델 대비 유의미하게 앞선다. 이는 명시적·암시적 그래프의 보완 효과와 Bi‑LSTM의 시계열 학습 능력이 복합적으로 작용했음을 시사한다.

한계점으로는 (1) 명시적 그래프 규칙 설계에 전문가 지식이 필요해 초기 구축 비용이 높을 수 있다, (2) Gumbel‑softmax 기반 암시적 그래프 학습이 데이터 양에 민감해 대규모 로그가 없을 경우 성능이 제한될 가능성이 있다, (3) 임계값 설정이 고정되어 있어 실제 운영에서는 동적 임계값 조정이 필요할 수 있다. 향후 연구에서는 자동 규칙 생성, 멀티모달 로그 통합, 그리고 강화학습 기반 임계값 최적화 등을 탐색함으로써 실용성을 더욱 높일 수 있을 것이다.

📄 논문 본문 발췌 (Translation)

사내 위협 탐지는 신뢰받는 내부 사용자의 은밀한 악의적 행위 때문에 사이버 보안 분야에서 여전히 큰 도전 과제로 남아 있다. 본 논문에서는 명시적 그래프와 암시적 그래프를 통합하고, 시간적 요소를 추가함으로써 사용자 행동을 효과적으로 분석할 수 있는 새로운 사후형 사내 위협 탐지(ITD) 프레임워크를 제안한다. 명시적 그래프는 조직 네트워크 내 사용자 활동을 사전에 정의된 규칙에 따라 구성하여 행동 간 명시적 관계를 드러낸다. 명시적 그래프는 잡음과 최적화 부족의 위험이 있기 때문에, 우리는 Gumbel‑softmax 기법을 활용하여 특징 유사도에 기반한 암시적 그래프를 도출한다. 이 암시적 그래프는 기본적인 패턴을 활용해 구조를 정제한다. 두 그래프는 각각 별도의 그래프 컨볼루션 네트워크(GCN)를 통해 노드 임베딩을 생성하고, 이후 어텐션 메커니즘으로 결합하여 위협 탐지에 핵심적인 특징을 강조한다. 정제된 임베딩은 양방향 장단기 메모리(Bi‑LSTM) 네트워크에 입력되어 사용자 행동의 시간적 역학을 포착한다. 모델은 확률 점수가 사전에 정의된 임계값 이하인 경우 해당 활동을 이상으로 판단한다. 두 개의 CERT 데이터셋(r5.2와 r6.2)에 대한 광범위한 평가 결과, 제안 프레임워크는 기존 최첨단 방법들을 크게 능가한다는 것이 입증되었다. r5.2 데이터셋에서는 AUC 98.62, 탐지율 100 %, 오탐률 0.05 %를 달성했으며, 보다 도전적인 r6.2 데이터셋에서는 AUC 88.48, 탐지율 80.15 %, 오탐률 0.15 %를 기록하였다. 이러한 결과는 명시적·암시적 그래프 표현과 고급 시계열 모델링을 결합함으로써 복잡한 시나리오에서도 정상 활동과 비정상 활동을 효과적으로 구분할 수 있는 견고한 사내 위협 탐지 솔루션을 제공함을 시사한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키