계층적 이질성을 활용한 네트워크 트래픽 분류 사전학습 모델 Nethira

계층적 이질성을 활용한 네트워크 트래픽 분류 사전학습 모델 Nethira
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Nethira는 바이트, 프로토콜, 패킷 수준의 계층적 재구성 및 증강을 통해 네트워크 트래픽의 구조적 이질성을 학습하고, 제한된 라벨 데이터에서도 기존 사전학습 모델 대비 평균 F1 점수를 9.11% 향상시킨다.

상세 분석

Nethira는 네트워크 트래픽 분류에서 흔히 발생하는 “입력의 동질성(플랫 바이트 시퀀스) ↔ 트래픽의 이질성(계층적 구조)” 간 격차를 해소하기 위해 설계된 사전학습‑미세조정 프레임워크이다. 사전학습 단계에서는 바이트 수준 마스킹, 프로토콜 필드 마스킹, 패킷 순서 교란이라는 세 가지 계층적 재구성 과제를 동시에 수행한다. 바이트 마스킹은 기존 MLM과 유사하지만, 마스크 비율과 위치를 랜덤하게 선택해 기본적인 바이트 패턴을 학습한다. 프로토콜 레벨 재구성은 필드 경계에 맞춰 연속 바이트 구간을 마스킹함으로써 헤더 구조와 필드 간 상관관계를 포착한다. 패킷 레벨 재구성은 패킷 순서를 임의로 섞은 뒤 일부 바이트를 마스크해, 흐름 내 패킷 간 의존성과 동적 변화를 모델이 인식하도록 만든다. 세 손실(L_byte, L_protocol, L_packet)을 합산한 총 손실 L_P는 트래픽의 다중 스케일 특징을 동시에 최적화한다.

미세조정 단계에서는 두 종류의 계층적 데이터 증강(프로토콜 필드 무작위 재배열, 패킷 순서 교란)을 적용하고, 원본 입력과 증강된 입력 사이의 표현 일관성을 KL 발산으로 최소화한다(L_cons). 이는 라벨 의존성을 낮추고, 다양한 네트워크 환경에서도 견고한 일반화를 가능하게 한다. λ 파라미터를 통해 일관성 정규화와 지도 손실(CE)의 비중을 조절한다.

실험은 ISCX‑VPN(앱/서비스), USTC‑TFC, CIC‑IoT 네 개 공개 데이터셋에서 수행되었으며, 7개의 최신 사전학습 모델(ET‑BERT, NetGPT 등)과 전통적인 통계·딥러닝 기반 모델을 베이스라인으로 삼았다. Nethira는 평균 F1 점수에서 9.11%p 상승을 기록했으며, 특히 패킷 수가 많은 CIC‑IoT에서 18.05%p까지 큰 개선을 보였다. 라벨 비율을 1%까지 축소한 실험에서도 CIC‑IoT에서 0.9452의 F1 점수를 달성, 100% 라벨을 사용한 기존 최고 모델을 능가했다. 이는 트래픽 이질성이 높은 데이터에서 Nethira의 계층적 재구성·증강이 효과적임을 입증한다.

Ablation 결과는 (1) 사전학습 없이 스크래치 학습 시 4.78%p 성능 저하, (2) 단일 바이트 마스크만 사용 시 1.71%p 감소, (3) 일관성 정규화 없이 미세조정 시 추가 감소를 보여, 제안된 세 가지 핵심 요소가 모두 성능 향상에 기여함을 확인한다. 전체적으로 Nethira는 네트워크 트래픽의 다중 레벨 구조를 명시적으로 모델링함으로써, 기존 평탄화 접근법의 한계를 극복하고 라벨 효율성을 크게 높인 혁신적인 사전학습 프레임워크라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기