대규모 언어 모델을 활용한 차세대 사이버 공격 탐지와 로그 이상 분석

대규모 언어 모델을 활용한 차세대 사이버 공격 탐지와 로그 이상 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이질적인 로그 데이터를 대상으로 대규모 언어 모델(LLM)을 이용한 이상 탐지 프레임워크를 제안한다. LogAtlas‑Foundation‑Sessions와 LogAtlas‑Defense‑Set이라는 두 개의 균형 잡힌 공개 데이터셋을 구축하고, 3 B 파라미터 기반 Base‑AMAN과 0.5 B 파라미터 경량 모델 AMAN을 지식 증류 방식으로 연결한다. 실험 결과, 세션당 0.3~0.5초의 추론 시간과 일일 비용 50 USD 이하의 실용성을 입증한다.

상세 분석

이 논문은 로그 기반 침입 탐지 분야의 근본적인 문제점—높은 오탐률, 의미적 이해 부족, 라벨링 데이터 희소성—을 LLM으로 해결하고자 한다. 첫 번째 기여는 두 개의 공개 데이터셋이다. LogAtlas‑Foundation‑Sessions는 44 000개 이상의 세션, 19 백만 로그 이벤트를 포함하며, 공격 비율을 자연스러운 2 % 수준으로 유지해 일반 로그 이해를 위한 사전학습에 최적화되었다. 반면 LogAtlas‑Defense‑Set은 공격 로그 1.68 백만 건, 정상 로그 3 백만 건을 포함해 35 %의 공격 비율을 의도적으로 높여 클래스 불균형 문제를 완화하고, 실제 SOC 환경을 모사한다. 데이터셋 설계 시 세션 단위 메타데이터(시간, 호스트, 로그 유형 등)를 추가함으로써 모델이 시간·시스템·소스별 패턴 변화를 학습하도록 유도한다.

두 번째 기여는 기존 평가 지표의 함정을 지적한다. 로버타와 LogBERT를 다양한 공격 비율(0 %~100 %)에 대해 테스트한 결과, 정확도와 F1 점수가 높은 경우에도 실제 공격 탐지율은 0에 가까워 ‘정확도는 의미가 없다’는 결론을 도출한다. 이는 보안 시스템에서 ‘대다수 클래스를 무조건 예측’하는 모델이 겉보기에 높은 성능을 보이지만 실전에서는 전혀 쓸모가 없음을 보여준다. 따라서 논문은 평가 시 공격 비율을 현실적인 수준(10 %~30 %)으로 맞추고, 검출률·재현율·ROC‑AUC 등 다중 지표를 병행 사용할 것을 권고한다.

세 번째 기여는 두 단계 학습 파이프라인이다. 첫 단계에서는 Qwen2.5‑3B‑Instruct를 기반으로 LoRA(저차원 적응)와 Soft‑MoE(소프트 전문가 혼합) 기법을 결합해 3 B 파라미터 모델인 Base‑AMAN을 1.544 억 토큰(≈51.6:1 토큰당 파라미터 비율)으로 학습한다. Chinchilla 스케일링 원칙을 적용해 파라미터와 토큰 수를 균형 맞춤으로써, 전체 모델을 완전 파인튜닝하지 않고도 도메인 특화 성능을 확보한다. Soft‑MoE는 4개의 전문가 네트워크를 사용해 로그 유형별 특화된 표현을 학습하면서도 라우팅 붕괴를 방지한다.

두 번째 단계에서는 Base‑AMAN에서 얻은 풍부한 의미 표현을 0.5 B 파라미터 AMAN으로 압축한다. 지식 증류 과정에서 로그 세션당 위험 점수, 이상 패턴, 대응 권고 등을 포함한 구조화된 출력 형식을 교사 신호로 사용한다. 결과적으로 AMAN은 0.3~0.5초의 추론 지연과 일일 50 USD 이하의 비용으로 실시간 SOC에 배치 가능하다.

전체 실험에서는 두 데이터셋 모두에서 높은 검출률(>92 %)과 낮은 오탐률(<5 %)을 기록했으며, 특히 Defense‑Set에서 35 % 공격 비율을 유지함으로써 모델이 ‘다수 클래스 편향’에 빠지지 않음을 확인했다. 또한, AMAN은 메모리 사용량이 3 B 모델 대비 6배 이상 절감되면서도 F1 점수 차이가 1~2 %에 불과한 효율성을 보여준다.

이 논문은 로그 데이터의 프라이버시 보호와 라벨링 비용 문제를 해결하기 위해 합성 로그와 메타데이터 기반 데이터셋을 공개하고, 평가 지표의 함정을 명확히 제시함으로써 향후 연구와 실무 적용에 중요한 기준을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기