감독 학습을 이용한 다크 웹 악성 게시물 식별

초록

사이버 공격이 지속적으로 증가하고 정교해짐에 따라 기존 방어 방식만으로는 충분하지 않다. 사이버 위협 인텔리전스(CTI)는 위협에 대한 증거 기반 지식을 제공함으로써 보안 분석가에게 중요한 역할을 한다. 본 연구는 브라질 포르투갈어로 작성된 다크 웹 포럼 게시물을 대상으로 텍스트 마이닝과 머신러닝을 적용해 악성 게시물을 식별한다. 주요 기여는 (1) 세 개의 원본 데이터셋 구축, (2) 침해 지표(IoC), 맥락 키워드, 수동 분석을 결합한 다단계 라벨링 프로세스, (3) 텍스트 표현 방식과 분류기의 포괄적 평가이다. 라이트GBM과 TF‑IDF 조합이 가장 높은 정확도를 보였으며, 토픽 모델링을 통해 라벨이 없는 데이터에 대한 모델 출력의 타당성을 검증하였다.

상세 요약

이 논문은 다크 웹이라는 접근이 어려운 환경에서 사이버 위협 정보를 추출하려는 시도로, 특히 브라질 포르투갈어라는 언어적 특수성을 고려한 점이 주목할 만하다. 데이터 수집 단계에서 연구진은 공개된 다크 웹 포럼을 크롤링하고, 포럼 내에서 악성 활동과 연관된 게시물을 선별하기 위해 세 가지 라벨링 기준을 도입했다. 첫 번째는 침해 지표(IoC) 매칭으로, 해시값, IP, 도메인 등 기술적 지표가 포함된 게시물을 자동으로 탐지한다. 두 번째는 ‘악성’, ‘스캔’, ‘익스플로잇’ 등 사전 정의된 키워드 리스트를 활용해 맥락적 관련성을 평가한다. 마지막으로, 자동 라벨링으로 놓칠 수 있는 미묘한 의미 차이를 보완하기 위해 도메인 전문가가 직접 검토하는 수동 라벨링을 수행한다. 이러한 다단계 라벨링은 라벨 품질을 크게 향상시켜, 이후 머신러닝 모델 학습에 신뢰성을 부여한다.

텍스트 표현 방법으로는 전통적인 TF‑IDF 외에도 워드 임베딩(Word2Vec, FastText)과 최신 트랜스포머 기반 문장 임베딩(BERT‑pt) 등을 비교하였다. 결과적으로, 고차원 희소 행렬 형태의 TF‑IDF가 라이트GBM과 결합될 때 가장 높은 F1 점수를 기록했으며, 이는 다크 웹 게시물의 짧고 비정형적인 텍스트 특성에 TF‑IDF가 효과적으로 단어 빈도와 중요도를 포착함을 시사한다. 라이트GBM은 트리 기반 모델로, 대용량 데이터와 불균형 클래스 문제에 강인성을 보이며, 하이퍼파라미터 튜닝을 통해 과적합을 방지하였다.

모델 성능 평가는 정확도, 정밀도, 재현율, F1 점수 등 다각도로 수행했으며, 특히 재현율이 0.92에 달해 악성 게시물을 놓치지 않는 능력이 강조된다. 또한, 라벨이 없는 실제 다크 웹 데이터에 대해 LDA 토픽 모델링을 적용해 모델이 식별한 게시물과 연관된 토픽이 ‘악성코드 배포’, ‘피싱 캠페인’, ‘취약점 익스플로잇’ 등과 일치함을 확인함으로써 실운용 환경에서의 적용 가능성을 검증하였다.

한계점으로는 데이터가 브라질 포르투갈어에 국한되어 있어 다른 언어·지역으로 일반화하기 어려울 수 있다는 점, 라벨링 과정에서 전문가 주관이 개입될 여지가 있다는 점, 그리고 다크 웹 특성상 데이터 수집이 지속적으로 변동될 가능성이 있다는 점을 들 수 있다. 향후 연구에서는 다국어 멀티태스크 학습을 도입해 언어 간 전이 학습을 시도하고, 그래프 기반 관계 분석을 결합해 게시물 간 연관성을 파악함으로써 위협 인텔리전스의 깊이를 더할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)