다중 SIEM 환경을 위한 자동화된 쿼리 생성 프레임워크 SynRAG
초록
SynRAG는 YAML 기반의 플랫폼‑중립 위협 사양을 입력으로 받아, QRadar와 Google SecOps 등 이질적인 SIEM 시스템에 맞는 실행 가능한 쿼리를 자동으로 생성하는 Retrieval‑Augmented Generation(RAG) 기반 프레임워크이다. 기존 LLM만을 활용한 방식과 비교해 구문 오류와 실행 불가능성을 크게 감소시키며, 보안 분석가의 학습 비용과 수작업 번역 부담을 최소화한다.
상세 분석
본 논문은 SIEM(보안 정보 및 이벤트 관리) 시스템마다 서로 다른 데이터 모델과 전용 쿼리 언어(AQL, YARA‑L, SPL 등)를 가지고 있어, 다중 SIEM 환경을 운영하는 기업이 보안 분석가에게 과도한 학습 부담을 안겨준다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 제안된 SynRAG는 세 가지 핵심 기술 요소를 결합한다. 첫째, 위협 시나리오를 YAML 형식으로 기술하도록 함으로써 인간이 이해하기 쉬운 구조화된 입력을 확보한다. 둘째, 각 SIEM의 공식 문서와 스키마 정보를 PDF·HTML에서 추출·전처리하여 Chroma 기반 벡터 데이터베이스에 저장한다. 여기서 사용된 sentence‑transformers/all‑MiniLM‑L6‑v2 임베딩은 의미 기반 검색을 가능하게 하여, 입력된 위협 사양과 가장 연관된 문서 조각을 상위 5개 정도 빠르게 찾아낸다. 셋째, “Syntax Service”라는 제약 조건 엔진을 도입해 각 쿼리 언어의 키워드, 필드, 함수, 데이터 소스 등 핵심 토큰 집합을 미리 정의하고, LLM이 생성 과정에서 이 토큰 집합만을 활용하도록 제한한다. 이로써 모델이 문법을 벗어나거나 허위 토큰을 만들어내는 hallucination 현상을 현저히 억제한다.
실험에서는 GPT‑4o를 기본 모델로 사용하고, DeepSeek‑V3, Llama‑3.3‑70B‑Instruct‑Turbo, Gemma‑2‑27B‑IT, Claude Sonnet 4 등 최신 LLM들을 베이스라인으로 비교하였다. 평가 지표는 (1) 구문 정확도(문법 오류 여부), (2) 실행 가능성(실제 SIEM 콘솔에서 성공적으로 실행되는 비율), (3) 위협 탐지 효율성(정답 쿼리와의 유사도)이다. SynRAG는 모든 지표에서 기존 LLM 단독 사용보다 월등히 높은 점수를 기록했으며, 특히 QRadar와 SecOps에 대한 쿼리 생성 시 90% 이상 실행 성공률을 달성했다.
또한, 논문은 현재 지원 플랫폼을 QRadar와 Google SecOps에 한정했지만, 아키텍처가 모듈식으로 설계돼 새로운 SIEM(예: Splunk, Elastic Stack) 추가가 비교적 간단함을 강조한다. 향후 작업으로는 자동화된 테스트 파이프라인 구축, 실시간 위협 인텔리전스 피드와의 연동, 그리고 멀티‑턴 대화형 인터페이스를 통한 사양 수정 지원 등이 제시된다. 전체적으로 SynRAG는 보안 운영 자동화와 인력 효율화에 기여할 수 있는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기