웹 공격 탐지를 위한 듀얼채널 BERT 기반 WADBERT 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

WADBERT는 URL과 페이로드 파라미터를 각각 별도 채널로 처리하고, 하이브리드 그라뉼러리티 임베딩(HGE)과 멀티헤드 어텐션을 결합해 비정형 HTTP 요청을 효과적으로 표현한다. 두 채널의 특징을 결합한 뒤 선형 분류기로 악성 여부를 판단하며, 어텐션 가중치를 통해 악성 파라미터를 추적한다. CSIC2010과 SR‑BH2020 데이터셋에서 각각 99.63%·99.50%의 F1‑score를 달성해 기존 최첨단 기법을 크게 앞선다.

상세 분석

본 논문은 웹 공격 탐지 분야에서 기존 딥러닝 모델이 갖는 세 가지 근본적인 한계를 정확히 짚어낸다. 첫째, URL·페이로드와 같은 심볼이 풍부한 문자열은 자연어 전용 토크나이저(BPE, WordPiece)로는 의미 있는 임베딩을 만들기 어렵다. 둘째, HTTP 페이로드는 파라미터 순서가 의미가 없으며, 기존 모델은 이를 순차적 시퀀스로 오인해 파라미터 순열에 취약했다. 셋째, 대부분의 모델은 악성 여부만을 예측하고, 어느 파라미터가 공격에 기여했는지 설명하지 못한다.

WADBERT는 이러한 문제를 해결하기 위해 ‘Hybrid Granularity Embedding(HGE)’을 설계한다. HGE는 WordPiece 토큰화와 문자‑레벨 GRU 기반의 미세 특징을 결합해 토큰당 서브워드 의미와 문자 수준 변형을 동시에 포착한다. 구체적으로, 입력 문자열을 WordPiece으로 토큰화한 뒤, 각 토큰에 해당하는 문자 시퀀스를 양방향 GRU에 입력해 전·후 차분 표현을 만든다. 이 차분 표현을 선형 변환해 WordPiece 임베딩 공간에 맞춘 뒤, 두 임베딩을 합산해 최종 토큰 임베딩을 만든다. 이렇게 하면 %27, 1%2B=1%20 같은 인코딩 문자열이나 getUserName 같은 혼합형 토큰도 손실 없이 표현된다.

URL과 페이로드는 각각 전용 BERT 변형인 URLBERT와 SecBERT에 입력된다. URLBERT는 대규모 URL 코퍼스로 사전학습된 모델로, 메서드 정보와 정규화된 경로를 함께 학습해 URL 특유의 구조적 패턴을 잘 포착한다. SecBERT는 일반 텍스트용 BERT를 기반으로 하지만, HGE를 통해 페이로드 파라미터의 문자‑레벨 정보를 보강한다.

페이로드 파라미터는 순서가 없으므로, 논문은 멀티헤드 어텐션을 이용해 파라미터 간의 조합 관계를 모델링한다. 각 파라미터 토큰은 SecBERT를 거쳐 컨텍스트화된 표현을 얻고, 이후 멀티헤드 어텐션 레이어에서 모든 파라미터가 서로를 참조하도록 함으로써 순열 불변성을 확보한다. 어텐션 가중치는 파라미터별 중요도를 직접 제공하므로, 어느 파라미터가 악성인지 추적(traceability)할 수 있다.

두 채널의 최종 표현은 각각

웹 공격 탐지를 위한 듀얼채널 BERT 기반 WADBERT 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기