소프트웨어 공급망 연쇄 취약점 공격 탐지와 예측
초록
본 논문은 SBOM을 기반으로 이종 그래프를 구성하고, 이 그래프에 이종 그래프 어텐션 네트워크(HGAT)를 적용해 구성 요소가 취약점을 가지고 있는지를 예측한다. 또한 CVE 쌍을 대상으로 MLP 기반 링크 예측 모델을 학습시켜 다중 취약점 연쇄(체인)를 추론한다. 실험 결과, HGAT 기반 분류기의 정확도는 91 %에 달하고, 체인 예측 모델은 0.93 ROC‑AUC를 기록한다.
상세 분석
이 논문은 현재 소프트웨어 보안 도구들이 취약점을 독립적인 레코드로 다루는 한계를 지적하고, 공급망 전반에 걸친 연쇄 취약점 공격을 탐지하기 위한 새로운 프레임워크를 제시한다. 핵심 아이디어는 SBOM(Software Bill of Materials)을 풍부한 메타데이터와 결합해 이종 그래프(Heterogeneous Graph)로 변환하고, 그래프 내의 다양한 노드(컴포넌트, CVE, CWE)와 엣지(DEPENDS_ON, HAS_VULNERABILITY, HAS_CWE)를 명시적으로 모델링한다는 점이다.
그래프 구조를 학습하기 위해 저자들은 Heterogeneous Graph Attention Network(HGAT)를 채택한다. HGAT는 멀티헤드 어텐션 메커니즘을 이용해 노드 유형별, 엣지 유형별 가중치를 동적으로 학습함으로써, 의존 관계가 취약점 존재 여부에 미치는 영향을 정량화한다. 특히, 두 개의 어텐션 헤드를 사용해 각 엣지 타입에 대한 중요도(coefficient)를 별도로 추정함으로써, 전통적인 피처 기반 분류기보다 구조적 신호를 효과적으로 활용한다.
연쇄 취약점(다중 CVE 체인) 예측은 라벨이 부족한 문제를 해결하기 위해 링크 예측 문제로 재구성된다. 저자들은 CVE 쌍을 입력으로 하는 다층 퍼셉트론(MLP) 모델을 설계하고, 각 CVE의 심각도(CVSS), 시간적 근접성, CWE 연관성, 공개된 익스플로잇 신호 등 도메인 지식 기반 피처를 제공한다. 긍정 샘플은 공개된 보안 공지와 사고 보고서에서 추출한 실제 체인에서 얻으며, 부정 샘플은 2:1 비율로 랜덤 네거티브 샘플링한다. 이렇게 학습된 모델은 CVE 간의 공동 활용 가능성을 점수화하고, 높은 점수를 받은 쌍을 연결해 다단계 공격 경로를 구성한다.
실험은 Wild SBOMs 데이터셋(200개의 Python 기반 CycloneDX SBOM)과 공개된 다중 CVE 체인(35개)을 사용한다. HGAT 기반 컴포넌트 분류에서는 정확도 91.03 %, 정밀도 80.84 %, 재현율 68.26 %, F1 74.02 %를 달성했으며, 의존 관계 엣지를 제거하면 성능이 현저히 떨어지는 점에서 그래프 구조가 중요한 신호임을 확인한다. 체인 예측 모델은 ROC‑AUC 0.93을 기록했지만, 동일 CVE가 서로 다른 페어에 포함될 수 있는 페어‑레벨 스플릿으로 인한 과적합 가능성을 인지하고, 향후 체인‑레벨 및 시간적 스플릿을 도입해 일반화 능력을 검증할 계획이다.
한편, 연구는 오픈소스 코드와 데이터셋을 공개함으로써 재현성을 높였으며, 향후 LLM 기반 지식 그래프 확장, 멀티모달 피처 통합, 실시간 SBOM 업데이트 파이프라인 등으로 확장 가능성을 제시한다. 전체적으로 이 논문은 SBOM을 단순한 목록이 아닌, 구조화된 그래프 데이터로 활용해 공급망 보안 분석의 정밀도와 범위를 크게 확대할 수 있음을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기