불균형·부분라벨 데이터에서 반지도 학습을 활용한 DDoS 공격 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 클래스 불균형과 라벨 부족이 심각한 DDoS 데이터셋에 대해 13가지 최신 반지도 학습(SSL) 알고리즘을 평가한다. CIC‑DDoS2019 데이터를 1:10, 1:100, 1:500, 1:1000의 불균형 비율과 1 %, 5 %, 10 %, 20 %의 라벨링 비율로 조합해 16가지 시나리오를 구성하고, 각 알고리즘의 F1‑score를 10‑fold 교차 검증으로 비교하였다. 결과는 SCL이 전반적으로 가장 높은 성능을 보였으며, VAT와 UDA는 높은 불균형에서도 비교적 안정적인 결과를 나타냈다. 반면 FixMatch, AdaMatch 등은 라벨이 극히 적은 상황에서 급격히 성능이 저하되는 한계를 드러냈다.

상세 분석

이 논문은 사이버 보안 분야에서 가장 난제 중 하나인 DDoS 공격 탐지를 데이터 불균형과 라벨 부족이라는 두 축의 어려움 속에서 해결하고자 한다. 연구자는 먼저 CIC‑DDoS2019 데이터셋을 선택해 정상 트래픽과 공격 트래픽의 비율을 1:10, 1:100, 1:500, 1:1000 네 단계로 인위적으로 조정하였다. 각 비율마다 전체 샘플의 90 %를 학습, 10 %를 테스트용으로 사용하고, 학습 데이터에 대해 1 %, 5 %, 10 %, 20 %의 라벨링 비율을 무작위로 적용해 16개의 실험 환경을 만든다.

실험에 투입된 13개의 SSL 알고리즘은 AdaMatch, FixMatch, FlexMatch, Label Propagation, Label Spreading, Mean Teacher, MixMatch, Π‑Model, Pseudo‑Labeling, Self‑Training, Virtual Adversarial Training, SimCLR, Suppressed Consistency Loss 등이다. 각 알고리즘은 라벨이 적은 상황에서도 비라벨 데이터를 활용해 모델을 정규화하거나 의사 라벨을 생성하는 방식을 채택한다.

성능 평가는 주로 F1‑score를 사용했으며, 10‑fold 교차 검증을 통해 평균값과 표준편차를 보고하였다. 1:10 불균형에서는 SCL이 전반적으로 가장 높은 F1을 기록했고, FixMatch은 5 % 라벨링에서 0.9920이라는 최고점을 찍으며 안정성을 보였다. LP와 Self‑Training도 라벨 비율에 관계없이 0.996 이상을 유지해 라벨이 적어도 충분히 학습할 수 있음을 시사한다. 반면 MixMatch와 FlexMatch는 라벨 비율이 증가함에 따라 성능이 오히려 감소하는 비정상적인 패턴을 보였다.

불균형 비율이 1:100으로 심화되면 대부분의 알고리즘이 급격히 성능이 저하된다. 특히 FixMatch은 1 % 라벨링에서 0.6830 이하로 떨어졌으며, AdaMatch도 0.6132 수준에 머물렀다. LP, LS, Self‑Training은 전반적으로 0.5 수준에 머물며 라벨이 극히 적은 상황에서 학습이 거의 불가능함을 드러냈다. 반면 UDA는 라벨이 1 %일 때 0.7629로 비교적 높은 점수를 유지했지만 라벨 비율이 늘어날수록 성능이 감소하는 특성을 보였다.

가장 극단적인 1:500, 1:1000 상황에서는 SCL이 여전히 다른 알고리즘을 압도했으며, VAT는 1:500에서 0.6694, 1:1000에서 0.5475로 비교적 완만한 감소를 보였다. 이는 VAT가 적대적 노이즈를 활용해 라벨이 거의 없는 상황에서도 견고한 경계 결정을 학습할 수 있음을 의미한다. 전반적으로 라벨 비율이 증가한다고 해서 모든 알고리즘이 성능이 향상되는 것은 아니며, 라벨과 비라벨 데이터의 균형, 알고리즘의 일반화 능력, 라벨 노이즈에 대한 민감도가 핵심 변수임을 확인했다.

이 연구는 SSL과 클래스 불균형 학습(CIL)의 결합이 아직 초기 단계이며, 특히 라벨이 극히 적은 상황에서 알고리즘마다 큰 격차가 존재함을 보여준다. 향후 연구에서는 라벨링 비용을 최소화하면서도 불균형을 효과적으로 완화할 수 있는 하이브리드 전략(예: 샘플링 + SSL, 메타‑학습 기반 라벨 추정) 등을 탐색할 필요가 있다.

불균형·부분라벨 데이터에서 반지도 학습을 활용한 DDoS 공격 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기