경량형 GenAI로 네트워크 트래픽 합성: 품질·증강·분류 효율성
본 논문은 1~2백만 파라미터 규모의 경량형 트랜스포머, 상태공간모델(SSM), 확산모델(DM)을 활용해 네트워크 트래픽을 합성하고, 합성 데이터의 품질, 프라이버시 보존 학습, 데이터 부족 상황에서의 증강 효과, 그리고 연산 효율성을 체계적으로 평가한다. 실험 결과, 트랜스포머와 SSM이 가장 높은 충실도를 보이며, 합성 전용 학습 시 실제 트래픽에 대해 F1 ≈ 87%를 달성하고, 저데이터 환경에서는 성능을 최대 40%까지 끌어올린다.
저자: Giampaolo Bovenzi, Domenico Ciuonzo, Jonatan Krolikowski
본 논문은 네트워크 트래픽 분류(NTC) 작업에서 라벨링된 데이터가 부족하고 프라이버시 규제가 강화되는 현실적 문제를 해결하기 위해, 경량형 생성 인공지능(GenAI) 모델을 활용한 네트워크 트래픽 생성(NTG) 프레임워크를 제안한다. 기존의 통계 기반 마코프 모델, 변분 오토인코더(VAE), GAN 등은 복잡한 시계열 의존성을 충분히 포착하지 못하거나 연산 비용이 과다한 한계가 있었다. 최근에는 대규모 트랜스포머, 확산 모델(DM), 상태공간모델(SSM) 등 강력한 생성 모델이 등장했지만, 파라미터 수가 수억~수십억에 달해 실제 네트워크 장비에 적용하기엔 비현실적이다.
이에 저자들은 파라미터 수를 1~2 M으로 제한한 경량형 모델 세 종류—LLaMA 기반 트랜스포머, Mamba 기반 SSM, NetDiffus‑NR 기반 확산 모델—를 선택하고, 네트워크 흐름을 ‘Payload Length × Direction’이라는 2차원 매트릭스로 압축한다. 이 매트릭스는 각 흐름의 처음 10개 패킷에 대해 길이와 방향(업/다운)을 부호화한 것으로, 실제 페이로드를 포함하지 않아 프라이버시 위험을 최소화한다. 매트릭스는 이미지 형태(GASF)로 변환해 확산 모델에 입력하거나, 토큰 시퀀스로 직렬화해 트랜스포머·SSM에 입력한다.
연구는 네 가지 핵심 질문(RQ1‑RQ4)을 설정하고, 두 공개 데이터셋(Mirage‑2019 모바일 앱 40종, CESNET‑TLS22‑80 네트워크 서비스 80종)을 이용해 실험을 수행한다. 평가 항목은 (i) 합성 트래픽의 통계·시계열 충실도, (ii) 합성 전용 학습 시 실제 데이터에 대한 분류 성능, (iii) 저데이터 상황에서 합성 데이터 증강 효과, (iv) 모델 학습·추론 시간·메모리·디스크 사용량 등 연산 효율성이다.
충실도 평가는 패킷 수 히스토그램, 1‑gram·2‑gram 히스토그램, 마코프 전이 행렬 등 다양한 분포를 Jensen‑Shannon Divergence(JSD)로 측정한다. 결과는 트랜스포머와 SSM이 JSD < 0.02 수준으로 실데이터와 거의 동일한 분포를 재현함을 보여준다. 특히 2‑gram 및 전이 행렬에서 두 모델 모두 실제 흐름의 시간적 패턴을 정확히 모방한다. 확산 모델도 전반적인 형태는 재현하지만, 이미지‑→‑시계열 복원 과정에서 일부 세부 정보가 손실돼 충실도가 약간 낮다.
분류 성능 측면에서, 합성 전용으로 학습한 모델은 실제 테스트 세트에서 평균 F1 ≈ 87%를 기록한다. 이는 라벨이 충분히 확보된 경우와 비교해 약 5~10% 정도의 감소에 불과하며, 기존 데이터 증강 기법(SMOTE, CVAE)보다 월등히 높은 성능을 보인다. 저데이터 실험에서는 실제 라벨이 전체의 5%에 불과한 상황에서, 합성 데이터를 10배 확대해 훈련에 포함시키면 F1 점수가 최대 40%까지 회복된다. 이는 데이터 부족으로 인한 성능 저하를 크게 완화시킨다.
연산 효율성 평가에서는 트랜스포머가 학습 1.8 시간, 추론 지연 12 ms(배치 = 1)로 가장 빠르고, 메모리 사용량은 1.2 GB, 디스크 크기는 150 MB 수준이다. SSM은 추론 지연 9 ms, 메모리 0.9 GB로 약간 더 가볍지만, 충실도에서 트랜스포머에 미세히 뒤진다. 확산 모델은 학습 4.5 시간, 추론 35 ms, 메모리 2 GB 이상으로 가장 무겁다. 양자화(8‑bit) 실험을 통해 모델 크기를 30% 이상 줄여도 충실도와 분류 성능에 유의미한 손실이 없음을 확인했다.
종합적으로, 논문은 “경량형 GenAI가 고품질 트래픽 합성을 가능하게 하며, 프라이버시를 보호하고, 저데이터 환경에서도 유의미한 성능 향상을 제공한다”는 결론을 제시한다. 특히 트랜스포머 기반 모델이 품질·효율성 모두에서 최적의 균형을 이루어, 실제 네트워크 장비나 엣지 환경에 적용하기에 가장 적합한 솔루션으로 평가된다. 향후 연구에서는 더 다양한 트래픽 특성(예: 인터‑패킷 간격, 암호화 페이로드) 포함, 멀티‑도메인 전이 학습, 그리고 실시간 온라인 합성 파이프라인 구축 등을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기