GPS 기반 텍스트 적대 공격 탐지: 임베딩 안정성과 단어 중요도 활용
초록
본 논문은 변형된 단어를 마스크했을 때 임베딩이 얼마나 변하는지를 측정해 적대적 텍스트를 탐지하는 GPS 프레임워크를 제안한다. 중요도 순위(주로 그래디언트 기반)를 이용해 상위 K 단어를 선정하고, 각각을 마스크한 후 코사인 거리로 민감도를 계산한다. 민감도와 중요도 시퀀스를 BiLSTM에 입력해 정상·적대 텍스트를 구분한다. 세 데이터셋·세 공격·두 모델 조합에서 85 % 이상의 검출 정확도를 달성했으며, 기존 탐지기 대비 연산 비용이 낮고 사전 재학습이 필요하지 않다.
상세 분석
GPS는 “임베딩 불안정성”이라는 핵심 가설에 기반한다. 적대적 텍스트는 모델의 결정 경계에 가까운 고곡률 영역에 위치해 작은 입력 변형(예: 단어 마스킹)에도 내부 표현이 크게 변한다는 이론적 배경을 차용한다. 구체적으로, 입력 문장 T 에 대해 사전 훈련된 트랜스포머 f 의 최종 레이어 히든 상태를 평균해 기준 임베딩 e(T) 를 만든다. 이후 중요도 히어리스틱(주로 Simonyan식 그래디언트, Attention‑Rollout, Grad‑SAM, 무작위 선택)으로 각 단어 wₖ 의 중요도 αₖ 를 계산하고, 상위 K 개의 단어를 마스크한다. 마스크 후 임베딩 ẽₖ 와 기준 임베딩 사이의 코사인 거리 sₖ = 1‑cos(e(T), ẽₖ) 를 민감도 점수로 정의한다.
실험 결과는 두 가지 중요한 현상을 보여준다. 첫째, 적대적 샘플에서 변형된 단어는 평균 ~2배 높은 sₖ 값을 보이며, 이는 “임베딩 민감도”가 정상 단어와 구별되는 강력한 신호임을 의미한다. 둘째, 중요도 선정 방법 중 그래디언트 기반이 가장 높은 NDCG 점수를 기록했으며, 이는 높은 중요도 순위가 실제 변형 단어와 높은 상관관계를 가짐을 입증한다(ρ ≈ 0.65). 흥미롭게도 무작위 선택도 1.88배 정도의 민감도 비율을 보였지만, 그래디언트와 Attention‑Rollout보다 일관성이 떨어진다.
GPS의 탐지기 부분은 민감도와 중요도 두 열을 원문 순서대로 정렬한 N × 2 특징 텐서 Z 를 입력으로 받는다. 이 텐서는 BiLSTM에 의해 시계열적 패턴을 학습하며, 정상 텍스트는 낮은 민감도와 고른 중요도 분포를, 적대 텍스트는 특정 위치에서 급격히 상승하는 민감도 피크를 보인다. BiLSTM은 이러한 패턴을 효과적으로 포착해 0.85 ~ 0.92의 검출 정확도를 달성한다.
연산 측면에서 GPS는 전체 문장을 한 번만 포워드하고, K 번(보통 K = 20) 마스크 후 임베딩을 재계산한다. 이는 기존 Sharpness‑based 탐지기나 Ensemble‑type 방법에 비해 메모리와 시간 복잡도가 현저히 낮다. 또한, 모델 재학습이 전혀 필요 없으며, 중요도 히어리스틱만 교체하면 블랙박스 환경에서도 적용 가능하다.
한계점으로는 문자 수준 공격(DeepWordBug)에서 그래디언트 기반 중요도가 상대적으로 낮은 성능을 보이며, 문자 변형에 특화된 별도 히어리스틱이 필요할 수 있다. 또한, K 값이 지나치게 작으면 변형 단어를 놓칠 위험이 있고, K 가 지나치게 크면 불필요한 마스크 연산이 늘어나 효율성이 떨어진다.
종합하면, GPS는 “중요 단어 마스크 → 임베딩 민감도 측정 → 시계열 탐지”라는 간단하면서도 이론적으로 탄탄한 파이프라인을 제공한다. 이는 기존 탐지기들이 주로 출력 로그나 손실 곡선에 의존하던 것과 달리, 내부 표현의 동적 변화를 직접 활용함으로써 공격 종류와 모델 아키텍처에 대한 의존성을 크게 낮춘다.
댓글 및 학술 토론
Loading comments...
의견 남기기