공급망 공격 재현과 다중 텔레메트리 분석을 위한 SynthChain 벤치마크
SynthChain은 실제 악성 패키지를 기반으로 만든 7개의 공급망 공격 시나리오와, 윈도우·리눅스·컨테이너 환경에서 수집한 다중 텔레메트리를 제공한다. 단일 로그 스트림만으로는 체인 전체를 복원할 수 없으며, 최소 두 개 이상의 소스를 결합해야 60% 이상 커버리지를 달성한다는 실험 결과를 제시한다.
저자: Zhuoran Tan, Wenbo Guo, Taylor Brierley
본 연구는 현대 소프트웨어 공급망(SSC) 공격이 정적 패키지 변조를 넘어 런타임 단계에서 복합적으로 전개된다는 사실을 기반으로, 이를 재현하고 평가할 수 있는 종합 벤치마크인 SynthChain을 제안한다. 저자들은 먼저 2025년까지 공개된 악성 오픈소스 패키지(16,272개)를 통계적으로 분석하여, 설치 시점 실행, 베이스64 인코딩 기반 회피, 데이터 탈취가 가장 빈번한 공격 패턴임을 확인한다. 이러한 분석 결과를 바탕으로 실제 사건에서 보고된 고위험 기법들을 선택해, PyPI·npm·C/C++ 생태계 각각에 대해 7개의 대표 시나리오를 설계하였다. 시나리오는 의존성 혼동, 타이포스쿼팅, CI/CD 파이프라인 침해, 파일리스(LotL) 실행, 스테가노그래피 기반 페이로드 분할·조립, 클라우드 서비스 남용 등 최신 공격 흐름을 포괄한다.
실험 환경은 Windows와 Linux 호스트 4대, Docker 기반 컨테이너 1대로 구성되며, 각 호스트에 실제 개발·배포 파이프라인을 모방한 도구(예: GitHub Actions, Azure Pipelines)를 설치한다. 텔레메트리는 크게 여섯 가지 소스로 수집된다. (1) 프로세스 계보와 시스템 콜은 eBPF 기반 Tracee를 이용해 커널 레벨에서 캡처하고, (2) Windows 이벤트 로그와 Linux Syslog는 Azure Log Analytics에 전송한다. (3) 네트워크 트래픽은 Zeek와 Wireshark으로 기록하며, (4) 서비스 호출 및 API 로그는 OpenTelemetry 표준에 맞춰 수집한다. (5) CI/CD 파이프라인 로그와 (6) 컨테이너 내부 파일 시스템 변화를 별도 에이전트가 추적한다. 모든 로그는 타임스탬프를 정밀 동기화하고, 공통 스키마로 정규화된 후 중앙 데이터 레이크에 저장된다.
정답 데이터는 두 단계로 구축된다. 첫째, Mythic C2 프레임워크가 기록한 공격자 명령과 ATT&CK 매핑 정보를 자동으로 추출한다. 둘째, LLM‑보조 파이프라인이 각 페이로드와 스크립트에서 실행된 행동을 식별하고, 수작업 검증을 거쳐 정확한 기술·전술 라벨을 부여한다. 이렇게 만든 체인‑레벨 정답은 각 공격 단계와 대응되는 최소 증거(예: 특정 프로세스 생성, 특정 파일 쓰기, 특정 네트워크 연결)를 정의한다. 이후 각 텔레메트리 스트림을 정답과 매칭시켜, 단일 소스와 다중 소스 조합에서의 탐지·재구성 성능을 정량화한다.
실험 결과는 두드러진 두 가지 인사이트를 제공한다. 첫째, 단일 텔레메트리 소스는 평균 0.391의 가중 태그/스텝 커버리지와 0.403의 평균 체인 재구성 점수에 머무른다. 이는 어느 한 소스만으로는 전체 공격 체인을 파악하기에 부족함을 의미한다. 둘째, 최소 두 개의 보완적인 소스를 결합하면 커버리지는 0.636, 재구성 점수는 0.639로 약 1.6배 향상된다. 특히 프로세스 계보와 네트워크 로그를 결합했을 때 가장 높은 상승을 보였으며, 추가적인 소스(예: CI/CD 로그) 도입은 경우에 따라 노이즈를 증가시켜 성능이 비단조적으로 변한다는 점을 강조한다. 이러한 결과는 비용·성능 제약이 있는 실제 운영 환경에서 어떤 텔레메트리를 우선 수집해야 하는지에 대한 실용적인 가이드를 제공한다.
논문은 또한 기존 데이터셋과의 비교표를 제시한다. 기존 공급망 데이터셋은 정적 파일 메타데이터나 단일 샌드박스 실행에 국한돼 체인‑레벨 정답이나 다중 소스 정렬을 제공하지 않는다. 반면 APT‑중심 테스트베드는 다단계·다중 소스를 제공하지만 공급망 특화된 의존성 해결 흐름을 모델링하지 않는다. SynthChain은 이 두 영역을 모두 포괄해, 공급망 공격의 전 과정(패키지 설치 → 빌드 → 런타임 → 탈취)과 그에 따른 다중 텔레메트리를 동시에 제공한다는 점에서 독창적이다.
마지막으로 저자들은 데이터와 코드, 정답 메타데이터를 모두 공개함으로써 재현 가능성을 보장하고, 향후 연구자들이 비용 효율적인 텔레메트리 선택, 멀티‑소스 포렌식 알고리즘, 실시간 탐지 모델 등을 평가·개선할 수 있는 기반을 마련한다. SynthChain은 공급망 보안 연구에 있어 “관측 가능성(observability)”을 핵심 변수로 삼아, 실제 운영 환경에서의 방어 전략 수립에 직접적인 영향을 미칠 수 있는 중요한 벤치마크로 자리매김한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기