압축 기반 로그 이상 시퀀스 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 로그 데이터에서 비정상적인 시퀀스를 찾아내기 위해, 정상 로그 집합을 문법 기반 압축기로 학습하고, 새로운 시퀀스가 추가될 때 문법 크기의 증가량을 정보량으로 측정한다. 압축 길이 증분이 큰 시퀀스를 이상으로 판단하며, 실제 버그 로그와 시스템 호출 트레이스에 적용해 높은 탐지 정확도를 보였다.

상세 분석

이 연구는 기존의 통계·확률·마코프 기반 이상 탐지 기법이 갖는 한계를 극복하고자, 정보 이론과 압축 이론을 결합한 새로운 접근법을 제시한다. 핵심 아이디어는 “정상 행동을 설명하는 최소한의 서술(문법)이 존재한다면, 비정상 행동은 더 많은 서술을 필요로 한다”는 직관을 압축 길이 증가량으로 정량화하는 것이다. 구체적으로, 저자들은 문법 기반 압축 알고리즘(그리디 문법 변환, SEQUITUR 변형)을 사용해 정상 로그 집합을 하나의 컨텍스트 자유 문법 G₀로 변환한다. 이때 문법의 비터미널 수와 각 생산 규칙의 오른쪽 길이 합이 압축된 크기 Q₀가 된다.

새로운 후보 시퀀스 x가 등장하면, 기존 문법 G₀에 x를 삽입해 새로운 문법 Gₓ를 생성하고, 압축 크기 Qₓ를 재계산한다. 정보량 Iₓ = Qₓ – Q₀, 정보 밀도 Dₓ = Iₓ / |x| 로 정의한다. Iₓ가 클수록 x는 기존 정상 패턴과 공유되는 구조가 적어 “새로운” 정보를 많이 포함한다는 의미이며, Dₓ는 시퀀스 길이에 대한 정규화된 이상 정도를 제공한다.

알고리즘은 크게 세 단계로 구성된다. 1) 학습 단계: 정상 로그 집합 Sₙ을 입력받아 문법 변환 함수 LogTransform를 통해 G와 시작 심볼 p₀를 생성한다. 2) 평가 단계: 각 의심 시퀀스 tₙ ∈ S_q에 대해 EvaluateSequence(p₀, G, tₙ)를 호출해 Iₜₙ, Dₜₙ을 산출한다. 3) 보고 단계: I와 D가 가장 큰 m₁, m₂개의 시퀀스를 각각 이상으로 보고한다. m₁, m₂는 사용자가 조정 가능한 파라미터이다.

문법 기반 압축을 선택한 이유는 두 가지이다. 첫째, 일반적인 LZ77 계열 압축(gzip, bzip2 등)은 슬라이딩 윈도우 방식으로 과거 정보를 재사용하지 않아 로그와 같은 구조화된 시퀀스에서 의미 있는 패턴을 포착하기 어렵다. 둘째, 로그 엔트리는 바이트 스트림이 아니라 의미 있는 토큰(예: 함수 호출, 분기 번호)으로 구성되므로, 토큰 집합을 알파벳으로 하는 문법 압축이 더 적합하다.

구현 세부사항으로는, 문법 변환 과정에서 비터미널이 한 번만 등장하는 경우(규칙 1), 반복 패턴을 새로운 비터미널로 추출(규칙 2), 공통 서브시퀀스를 공유하도록 두 규칙을 병합(규칙 3)한다. 또한, 각 로그 시퀀스를 독립적인 비터미널로 감싸 p₀에 연결함으로써 시퀀스 간 교차 패턴이 문법에 혼입되는 것을 방지한다.

실험에서는 두 도메인에 적용하였다. (1) 세밀한 실행 로그: ReBranch 도구가 기록한 브랜치 트레이스를 라인 번호 시퀀스로 변환해, lighhttpd와 memcached의 비결정적 버그를 탐지했다. 정상 실행 로그를 학습한 뒤, 버그가 발생한 실행에서 삽입된 시퀀스는 I와 D가 현저히 높아 정상 로그와 구분되었다. (2) 시스템 호출 트레이스: 공개된 공격 시나리오(예: buffer overflow, privilege escalation)의 시스템 호출 로그에 적용했을 때, 공격 단계별로 특이한 호출 패턴이 높은 I/D 값을 보이며 정상 프로세스와 구별되었다. 실험 결과는 압축 기반 방법이 기존 마코프 모델 대비 높은 재현율과 낮은 오탐률을 보였으며, 특히 긴 시퀀스에서 고수준의 비정상 행동을 포착하는 데 강점을 나타냈다.

한계점으로는 (a) 문법 생성 비용이 로그 규모에 비례해 증가하므로 대규모 실시간 스트림에선 최적화가 필요하고, (b) 정보 밀도 D는 시퀀스 길이에 민감해 매우 긴 정상 시퀀스가 일부 이상으로 오인될 가능성이 있다. 향후 연구에서는 증분 문법 업데이트 기법과, D를 정규화하는 추가 메트릭을 도입해 실시간 적용성을 높이는 방안을 제시한다.

압축 기반 로그 이상 시퀀스 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기