- Title: SynRAG A Large Language Model Framework for Executable Query Generation in Heterogeneous SIEM System
- ArXiv ID: 2512.24571
- 발행일: 2025-12-31
- 저자: Md Hasan Saju, Austin Page, Akramul Azim, Jeff Gardiner, Farzaneh Abazari, Frank Eargle
📝 초록
보안 정보 및 이벤트 관리(SIEM) 시스템은 대규모 기업들이 매일 수백만 개의 로그와 이벤트를 수집하고 분석하여 IT 인프라스트럭처를 모니터링하는 데 필수적입니다. 보안 운영 센터(SOC) 분석가는 이러한 방대한 데이터를 모니터링하고 분석하여 잠재적인 위협을 식별하고 기업 자산을 보호하기 위한 예방 조치를 취해야 합니다. 하지만 Palo Alto Networks Qradar, Google SecOps, Splunk, Microsoft Sentinel 및 Elastic Stack과 같은 SIEM 플랫폼들 간의 다양성은 상당한 도전 과제를 제기합니다. 이러한 시스템들은 속성, 아키텍처, 쿼리 언어에서 차이점이 있어 분석가들이 광범위한 훈련을 받지 않으면 여러 플랫폼을 효과적으로 모니터링하기 어렵고 기업은 인력을 확대해야 하는 상황입니다. 이 문제를 해결하기 위해 우리는 플랫폼에 무관한 사양에서 다중 SIEM 플랫폼용 위협 탐지 또는 사건 조사 쿼리를 자동으로 생성하는 통합 프레임워크인 SynRAG을 도입합니다. SynRAG은 분석가가 작성한 단일 고수준 사양으로 특정 플랫폼에 맞는 쿼리를 생성할 수 있습니다. SynRAG 없이 분석가는 시스템 간에 크게 차이가 나는 쿼리 언어 때문에 각 SIEM 플랫폼별로 별도의 쿼리를 수작업으로 작성해야 합니다. 이 프레임워크는 다양한 SIEM 환경에서 위협 탐지와 사건 조사를 원활하게 진행할 수 있도록 하여 전문적인 훈련과 수동 쿼리 번역에 대한 필요성을 줄입니다. 우리는 Qradar 및 SecOps를 대표적인 SIEM 시스템으로 사용하여 GPT, Llama, DeepSeek, Gemma, Claude와 같은 최첨단 언어 모델들과 SynRAG을 비교 평가하였습니다. 우리의 결과는 SynRAG이 위협 탐지와 사건 조사에 있어 다양한 SIEM 환경에서 최첨단 기본 모델보다 훨씬 더 좋은 쿼리를 생성한다는 것을 보여줍니다.
💡 논문 해설
1. **신규 프레임워크 도입**: SynRAG는 YAML을 사용해 고수준의 위협 사양을 플랫폼별 실행 가능한 SIEM 쿼리로 자동 변환하는 첫 연구입니다. 이를 통해 분석가는 다양한 SIEM 시스템에서 위협을 탐지하고 조사할 수 있습니다.
2. **SIEM 쿼리 생성 지원**: SynRAG는 각 SIEM 플랫폼의 독특한 구조와 문법을 고려해 분석가들이 복잡한 쿼리를 작성하는 데 필요한 시간과 노력을 크게 줄여줍니다.
3. **중심화된 위협 데이터 접근**: 이 프레임워크는 다양한 SIEM 인프라에서 중앙 집중식으로 위협 데이터에 액세스할 수 있게 해주며, 이를 통해 효율적인 위협 탐지가 가능합니다.
📄 논문 발췌 (ArXiv Source)
사고 조사, 위협 탐지, LLM, RAG, SIEM, SIEM 쿼리
서론
최근 몇 년 동안 인터넷 사용의 급속한 성장과 민감하고 고가치 시스템의 온라인 플랫폼으로의 광범위한 이전에 따라 사이버 공격이 더욱 흔해졌습니다. 성공적인 사이버 공격은 기업에게 수백만 달러의 손실, 명성 손상 및 고객 신뢰도 저하를 초래할 수 있습니다. 따라서 다양한 산업 분야의 조직들은 보안 정보 및 이벤트 관리(SIEM) 시스템을 도입하여 디지털 인프라를 능동적으로 모니터링하고 보호하기 시작했습니다. SIEM 시스템은 기업 IT 환경에서 생성되는 대량의 이벤트와 로그 데이터를 수집, 분석 및 저장합니다. 보안 분석가는 이러한 데이터를 검토하여 침해 징후를 탐지하고 잠재적인 위협과 사고를 조사하며 이를 신속하게 대응하는 역할을 합니다. 그러나 엄청난 양의 데이터와 다양한 SIEM 플랫폼들로 인해 이 작업이 점점 더 어려워지고 있습니다. Palo Alto Networks의 QRadar(IBM에서 소유한 바 있다), Google SecOps, Splunk, Apache Metron 및 Microsoft Sentinel 등 인기 있는 SIEM 각각은 독특한 아키텍처, 데이터 모델, 인터페이스 및 쿼리 언어를 가지고 있습니다. 따라서 분석가는 각 개별 SIEM 시스템에 대한 숙련도를 갖추기 위해 긴 시간과 자원을 투자해야 합니다.
우리의 지속적인 협업 중 하나는 다양한 산업에서 여러 고객에게 보안 서비스를 제공하는 사이버보안 회사 GlassHouse Systems Inc.와의 것입니다. 이 회사는 고객들의 다양한 기술 스택을 수용하기 위해 분석가들이 여러 SIEM 플랫폼을 정기적으로 사용해야 합니다. 그들의 주요 책임은 이러한 시스템 내에서 로그 및 공격 데이터를 검토하여 의심스러운 활동을 식별하는 것입니다. 그들은 종종 특정 플랫폼의 언어로 쿼리를 작성하여 공격 또는 사고를 조사해야 합니다. 그러나 단일 분석가가 모든 SIEM에 대한 깊은 전문성을 유지하는 것은 매우 실용적이지 않습니다. 이 때문에 다른 SIEM에서 쿼리를 얻기 위해 작업을 위임할 필요성이 있습니다.
이 문제를 해결하기 위해 SynRAG라는 새로운 프레임워크를 제안합니다. SynRAG는 분석가들이 플랫폼 독립적인 구조화된 YAML 사양을 사용하여 잠재적 위협 시나리오를 정의할 수 있게 합니다. 이 통합 입력에서 SynRAG는 각 지원 SIEM 시스템에 대한 플랫폼별 실행 가능한 쿼리를 자동으로 생성합니다. 이러한 쿼리는 해당 환경 내에서 실행되며 결과는 표준화된 형식으로 분석가에게 반환됩니다. 이 접근법은 전문적인 훈련과 수작업 쿼리 작성의 필요성을 줄이고, 다양한 SIEM 인프라에서 위협 탐지 효율을 높이는 동시에 중앙 집중적 위협 데이터 액세스를 가능하게 합니다.
우리의 주요 기여는 다음과 같습니다:
SynRAG라는 새로운 프레임워크를 도입하여 고수준의 플랫폼 독립적인 위협 사양을 YAML로 작성하여 실행 가능한 플랫폼별 SIEM 쿼리를 자동으로 생성합니다.
우리의 지식에 따르면, SynRAG는 다양한 SIEM 플랫폼에 맞춤화된 유효한 쿼리를 생성해 보안 분석가들이 위협을 조사하는 데 도움을 주도록 설계된 첫 연구입니다.
자동화된 SIEM 쿼리 생성을 지원하기 위한 벤치마크를 설정합니다.
배경 및 관련 작업
보안 정보 및 이벤트 관리(SIEM): SIEM은 조직의 IT 인프라에서 로그와 이벤트 데이터를 수집하고 분석하는 중앙 집중화된 시스템입니다. 이를 통해 실시간 위협 탐지, 사고 대응, 준수 보고가 가능합니다. 현대 SIEM 플랫폼에서는 AI 및 머신러닝을 통합하여 이상 징후를 식별하고 보안 워크플로우를 자동화합니다. SIEM은 특히 복잡한 하이브리드 IT 환경에서 보안 운영 센터(SOC)의 중요한 역할을 합니다.
로그, 이벤트 및 SIEM 쿼리: 로그는 시스템, 애플리케이션 및 장치가 생성하는 타임스탬프된 기록과 활동으로서 운영 및 보안 관련 활동을 포착합니다. 이벤트는 로그에서 추출하고 보안 관련성을 분석하기 위한 중요한 작업이나 발생 사항, 예를 들어 로그인, 파일 액세스 또는 오류 등을 말합니다. SIEM 쿼리는 특정 위협을 탐지하거나 사고를 조사하는 데 사용되는 구조화된 명령어로, 이벤트 데이터를 검색하고 필터링하며 상관관계 분석이 가능합니다. SIEM 시스템은 시간당 수백만 개의 로그와 이벤트 기록을 소비하므로 수동 검토가 불가능합니다. 각 SIEM 플랫폼은 자체 쿼리 언어를 제공하여 위협이나 이상 징후를 탐지할 수 있습니다. 보안 분석가는 특정 공격 패턴 또는 조사 요구 사항에 맞춰 특화된 쿼리를 작성합니다.
검색 강화 생성(RAG): RAG는 외부 지식을 먼저 검색하고 이를 텍스트 생성 중의 문맥으로 사용하여 언어 모델 출력을 개선하는 기술입니다. SIEM 쿼리 생성에 있어 이 접근법은 각 플랫폼이 엄격한, 고유한 구문 규칙 및 도메인별 토큰을 가지고 있다는 점에서 중요합니다. LLM 모델들은 특정 SIEM 쿼리를 생성하도록 특수하게 학습되지 않았습니다. 따라서 모델의 내부 지식에만 의존하는 대신 정확한 문서화 또는 구문 참조를 검색하여 생성된 쿼리가 유효하고 실행 가능합니다.
몇 가지 이전 연구는 구조화되거나 준구조화 입력을 실행 가능한 쿼리로 변환하는 문제에 초점을 맞추었습니다. 특히 지식 베이스 질문 답변, 정보 검색 및 프로그램 합성과 같은 도메인에서 많은 작업이 이루어졌습니다.
Zafar 등은 DBpedia와 같은 RDF 기반 지식 그래프에 대한 자연어 질문으로부터 SPARQL 쿼리를 생성하는 모듈형 시스템 SQG를 소개했습니다. 이 접근법은 트리-LSTMs을 사용해 구문 및 의미적 일치에 따라 후보 쿼리를 순위 매기며, 세미 웹 사용 사례에 중점을 둡니다. 그러나 SQG는 SPARQL에만 제한되며 다양한 플랫폼별 쿼리 문법을 지원하지 않습니다. Xue 및 Croft는 특허 검색을 위한 고 회수율 쿼리 생성 기술을 제안했습니다. 그들의 방법은 선택된 특허 필드에서 tf-idf 가중 명사구를 사용하고 학습에 기반한 순위 매기 전략을 적용합니다. 정적 문서 검색에서는 효과적이지만, 실행 가능하거나 플랫폼별 쿼리 생성에는 적합하지 않습니다. Huang 등은 질문 유사성을 바탕으로 허구 작업을 생성하여 소수 샷 적응을 수행하는 메타 학습 기반 SQL 생성 시스템 PT-MAML을 개발했습니다. 구조화된 쿼리 생성에 초점을 맞추지만, 그래디언트 업데이트를 사용하므로 보안 컨텍스트에서 실시간 적용에는 덜 적합합니다. SynRAG는 YAML 기반 사양과 RAG 기반 파이프라인을 사용하여 다양한 SIEM 플랫폼에서 위협 탐지 및 조사 쿼리를 생성하는 것에 초점을 맞추었습니다. 다른 연구가 SIEM 기반 쿼리 생성에 특화되어 있지 않았기 때문에 이 분야의 공백을 메꾸려고 노력했습니다.
SIEM의 고수준 사용자 요구 사항을 실행 가능한 쿼리로 변환하여 SOC 분석가들이 인프라 내에서 위협을 조사하는 데 지원하는 연구는 매우 제한적이었습니다. 우리의 연구는 이러한 기능을 가능하게 함으로써 추상적이고 인간이 읽기 쉬운 위협 사양으로부터 플랫폼별 SIEM 쿼리를 자동 생성합니다.
방법론
SynRAG 아키텍처
이 섹션에서는 SynRAG(그림
1)의 메소드론과 SIEM-agnostic 사양으로부터 다양한 SIEM 시스템에 대한 플랫폼별 쿼리를 생성하는 방법을 설명합니다.
SIEM은 하루에 수백만 개의 로그와 이벤트를 소비하며, 많은 플랫폼에서는 지속적인 위협 탐지를 위한 규칙을 만들 수 있지만, 이러한 규칙 정의 및 배포에는 시간과 노력이 필요합니다. 반면에 일회성, 주문형 쿼리는 특정 위협 증거를 신속하게 표면화할 수 있습니다. 각 SIEM 플랫폼은 고유한 쿼리 언어를 가지고 있습니다. 예를 들어, IBM에서 소유한 바 있는 Palo Alto Networks QRadar는 AQL(Ariel Query Language)을 사용하고, Google SecOps는 YARA-L 2.0을, Splunk는 Search Processing Language(SPL), Elastic Stack은 ES|QL(Elasticsearch Query Language)을 사용합니다. 이러한 구문적 및 구조적 차이는 분석가들이 여러 시스템에서 쿼리를 효과적으로 작성하는 것을 어렵게 합니다.
예를 들어 잠재적인 브루트 포스 로그인 공격: 5분 동안 20번의 로그인 시도를 5시간 동안 관찰합니다. 이를 조사하기 위해 SIEM 사용 언어로 쿼리를 작성할 수 있습니다. 그러나 기업 내에서 7-8개의 다른 SIEM 플랫폼이 사용되고 있으면 분석가들이 모든 쿼리 언어에 대한 숙련도를 유지하는 것이 불가능합니다.
이때 SynRAG는 큰 이점을 제공합니다. SynRAG는 YAML 파일을 요구 사항으로 사용하여 플랫폼 독립적인 방식으로 로그 기반 탐지 논리를 설명할 수 있도록 합니다. 분석가는 단일 형식을 사용해 위협을 설명할 수 있습니다. YAML 파일은 이벤트 유형, 필드 값, 시간 제약 조건 및 기타 탐지 논리 등을 자연어로 정의합니다.
우리 접근법에는 두 가지 주요 단계가 포함됩니다:
위협 사양: 분석가는 특정 형식을 사용하여 YAML 파일에 위협 동작을 자연스러운 인간 언어로 정의합니다. 이 프로세스는 상당한 시간과 노력을 요구하며, 협업 중인 인공 지능 전문가와 함께 40개의 위협 사양을 개발했습니다.
쿼리 생성: SynRAG는 규칙을 해석하고 이를 지원하는 각 SIEM 플랫폼에 대한 원래 쿼리로 번역합니다.
현재 구현에서는 IBM QRadar 및 Google SecOps를 대표적인 SIEM 시스템으로 집중합니다. 이는 지속적인 프로젝트이므로 시간이 지남에 따라 추가 SIEM 플랫폼 지원이 순차적으로 추가됩니다. SynRAG는 사양에서 AQL과 YARA-L 2.0 쿼리를 생성할 수 있습니다. 생성된 쿼리의 정확성을 검증하기 위해 각각의 SIEM 환경 내에서 이를 실행하거나 인공 지능 전문가가 작성한 표준 쿼리와 비교합니다. 이 번역 과정을 자동화함으로써 SynRAG는 분석가들이 다양한 SIEM 시스템에서 위협을 탐지하고 사고를 조사할 수 있게 하여 각 플랫폼의 독점 언어로 쿼리를 학습하고 작성하는 데 필요한 수작업을 줄입니다.
아키텍처 개요
제안된 시스템은 RAG(Retrieval-Augmented Generation) 아키텍처를 사용하여 고수준 위협 설명을 바탕으로 플랫폼별 보안 쿼리를 자동 생성합니다. 메소드론(그림
1)은 세 가지 주요 단계로 구성됩니다: 지식 추출, 벡터 데이터베이스 생성 및 구문 서비스.
먼저 QRadar(AQL)과 Google Chronicle SecOps(YARA-L)가 사용하는 쿼리 언어에 대한 도메인 지식을 수집했습니다. 다음으로, PyMuPDF(fitz) 라이브러리를 사용한 사용자 정의 Python 스크립트를 통해 QRadar AQL 문서 PDF 파일에서 텍스트를 추출하고 각 페이지에서 텍스트를 추출하여 UTF-8 인코딩된 .md(Markdown) 파일로 저장했습니다. 이 변환은 문서 경계를 유지하고 후속 파싱 및 색인화에 대한 데이터 준비를 수행합니다.
Google SecOps 지식 추출(온라인 HTML 소스): Playwright를 사용한 비동기 웹 스크래핑 파이프라인이 구글 시크릿 세코퍼스 포털에서 문서를 추출하기 위해 구현되었습니다. 크롤러는 유효한 영어 URL을 발견하고 헤드리스 크롬 브라우저를 시작하여 <article> 태그 내의 콘텐츠를 추출하고 이를 마크다운 파일로 저장합니다. 파일 이름은 정제된 페이지 제목에서 유래되며 소스 메타데이터가 포함됩니다.
벡터 데이터베이스 생성
RAG 파이프라인 내에서 의미적 검색을 가능하게 하기 위해 밀집형 벡터 색인이 생성되었습니다. QRadar(PDF) 및 SecOps(웹) 출처에서 추출된 모든 Markdown 파일은 UnstructuredMarkdownLoader 모듈을 통해 로드되었습니다. 각 문서는 소스 경로, 원본 폴더 및 고유한 UUID 식별자를 포함하는 메타데이터를 통합하여 추적 가능성을 보장합니다. 효과적인 색인화를 위해 RecursiveCharacterTextSplitter를 사용해 텍스트 청크를 생성했습니다. 각 청크의 크기는 500자로 설정되었고, 100자의 오버랩이 포함되어 경계 내에서 컨텍스트 일관성을 유지하고 검색 성능을 향상시킵니다. 결과적으로 생성된 텍스트 청크는 HuggingFaceEmbeddings를 사용해 임베딩되었습니다. 이 전처리 모델은 sentence-transformers/all-MiniLM-L6-v2로 구성되어 있습니다. 이러한 밀집형 벡터와 해당 메타데이터는 Chroma 벡터 데이터베이스에 저장됩니다.