CTI 에코 챔버: 20년 위협 인텔리전스 보고서의 파편화와 공급업체 편향
초록
본 논문은 2000년부터 2023년까지 13,308개의 공개 사이버 위협 인텔리전스(CTI) 보고서를 LLM 기반 파이프라인으로 구조화하여, 위협 행위자‑동기‑피해자 관계와 CTI 공급업체 간 중복·편향을 정량적으로 분석한다.
상세 분석
이 연구는 먼저 OpenAI 최신 모델(o4‑mini‑2025‑04‑16, o3‑2025‑04‑16)을 활용해 보고서에서 위협 행위자, 동기, 피해 국가·산업, 보고서 유형, IoC·TTP 등 10여 개 필드를 추출한다. 라벨링 단계에서는 420개의 보고서 유형, 80개의 동기, 511개의 산업 라벨을 LLM이 제안하도록 하고, 인간 검증을 거쳐 1차·2차 라벨 체계를 각각 12·25, 19·59, 24·111개로 축소하였다. 추출된 데이터는 정규화 과정을 통해 국가명·벤더·위협 행위자 별 표준명을 통합했으며, 특히 위협 행위자 별 별칭을 다섯 개 외부 매핑(마이크로소프트, CrowdStrike, Unit 42, SecureWorks, MITRE) 중 최소 세 곳에서 일치하는 경우에만 통합해 4,241개의 원시 라벨을 2,722개의 정규 라벨로 압축하였다.
품질 검증에서는 샘플링된 500개 보고서에 대해 인간 라벨러와 비교해 F1 = 0.94를 달성했으며, 이는 LLM 기반 자동화가 높은 정밀도·재현율을 유지함을 의미한다. 데이터셋(CTIRep)은 12,723개의 구조화 레코드와 1,626개의 벤더, 2,722개의 행위자, 12개의 동기, 254개의 국가, 24개의 산업, 107,611개의 IoC, 833개의 TTP를 포함한다.
시간적 분석에서는 2000‑2010년을 ‘시작 단계’, 2011‑2019년을 ‘폭발 성장기’, 2020년 이후를 ‘성숙기’로 구분한다. 기술 지표(IoC·TTP)와 보고서 양·벤더 수는 연도별 0.93의 높은 상관관계를 보였지만, 전략적 메타데이터(동기·행위자‑피해자 매핑)는 상대적으로 낮은 성장률을 보였다. 특히 30% 이상의 행위자가 단일 동기·산업‑국가 조합에만 집중하고, 다중 동기·다중 산업을 다루는 행위자는 7%에 불과해 위협 행위자들의 전문화 정도가 높음을 시사한다.
벤더 분석에서는 전체 벤더 중 88%가 ‘니치’ 플레이어이며, 상위 5%의 ‘슈퍼 벤더’가 전체 보고서와 다중 행위자 정보를 대부분 차지한다는 롱테일 구조가 드러났다. 두 벤더 간 평균 중복도는 12% 이하로, 동일 행위자에 대한 상세 정보까지 겹치는 경우는 5% 미만이었다. 이는 다수의 벤더를 결합해도 정보 중복이 제한적이며, 깊이 있는 인텔리전스를 얻기 위해서는 다변화된 공급망이 필요함을 의미한다.
결과적으로 이 논문은 (1) LLM을 활용한 대규모 CTI 구조화 파이프라인이 실용적임을, (2) 위협 행위자‑동기‑피해자 관계가 고도로 전문화되고 시간에 따라 전략적 메타데이터가 상대적으로 뒤처진다는 점을, (3) CTI 시장이 심각한 공급편향과 낮은 중복성을 보이며, 핵심 벤더에 의존할 경우 상황 인식은 가능하지만 심층 분석은 부족할 수 있음을 입증한다. 이러한 인사이트는 보안 운영팀이 정보 소스 포트폴리오를 설계하고, 연구자들이 CTI 데이터의 한계와 편향을 고려한 모델링을 수행하는 데 중요한 지침을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기