군중 토론으로부터 자동 공격 트리 생성 기술
초록
본 논문은 Stack Overflow와 GitHub 등 개발자 커뮤니티에 올라온 보안 토론을 활용해 공격 트리를 자동으로 생성하는 SynAT 시스템을 제안한다. LLM 기반 문장 스코핑, 전이 기반 이벤트·관계 추출 모델, 그리고 휴리스틱 규칙을 결합해 공격 목표, 방법, 그리고 AND/OR 관계를 도출하고, 이를 공격 트리 형태로 구조화한다. 5,070개의 Stack Overflow 보안 게시물과 2,350개의 GitHub 이슈를 대상으로 한 실험에서 SynAT은 기존 베이스라인을 크게 앞서며, 공개 보안 지식베이스인 CVE·CAPEC와 Huawei 내부 지식베이스에 실제 적용되어 실용성을 입증하였다.
상세 분석
SynAT은 보안 지식베이스의 최신성 부족 문제를 해결하기 위해 크라우드 소스인 개발자 포럼을 활용한다는 점에서 혁신적이다. 첫 단계에서는 대형 언어 모델(LLM)을 프롬프트 학습과 결합해 ‘공격 정보가 포함될 가능성이 높은 문장’만을 선별한다. 이때 프롬프트는 “공격 목표”, “공격 방법”, “취약점” 등 보안 도메인 키워드를 중심으로 자동 생성되며, LLM의 사전 학습된 지식을 활용해 높은 정밀도를 달성한다. 두 번째 단계는 전이 기반(transition‑based) 이벤트·관계 추출 모델이다. 기존의 파이프라인 방식과 달리 트랜스포머 인코더 위에 전이 레이어를 두어 이벤트 트리거와 인스트루먼트·타깃 인수를 동시에 예측한다. 이 모델은 이벤트와 관계를 공동 학습함으로써 상호 의존성을 반영하고, 특히 AND/OR와 같은 구조적 관계를 정확히 포착한다. 세 번째 단계에서는 추출된 이벤트와 관계를 기반으로 휴리스틱 규칙을 적용해 공격 트리를 구성한다. 규칙은 (1) 목표‑방법 매핑, (2) AND 관계는 두 자식 노드가 모두 만족해야 함, (3) OR 관계는 하나만 만족하면 됨을 명시한다. 또한, 트리 깊이 제한과 중복 제거를 통해 과도한 분기를 억제한다. 실험에서는 이벤트 추출 F1 80.93%, 관계 추출 F1 87.81%를 기록했으며, 트리 유사도 지표인 평균 해밍 거리(AHD) 10.24%, 트리 편집 거리 유사도(TEDS) 7.93%에서 최고 성능을 보였다. 이는 기존 규칙 기반 혹은 단일 단계 추출 모델보다 현저히 우수한 결과다. 적용 사례로는 Huawei 내부 보안 지식베이스에 1,354개의 신규 공격 트리를 추가하고, CVE·CAPEC에 미공개 공격 시나리오를 보강한 점이 강조된다. 한편, 논문은 LLM 프롬프트 설계와 전이 기반 모델의 학습 비용, 그리고 휴리스틱 규칙의 도메인 의존성을 한계점으로 제시한다. 향후 연구에서는 다국어 포럼, 실시간 스트리밍 데이터, 그리고 자동 규칙 학습을 통해 시스템의 일반화와 확장성을 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기