전이 가능한 코드 모델 백도어 공격 Sharpness 인식 적대적 교란
초록
본 논문은 코드 모델에 대한 백도어 공격에서 전이성과 은폐성을 동시에 달성하기 위해, 손실 평탄 영역을 탐색하는 Sharpness‑Aware Minimization(SAM) 기반 서브게이트 모델을 학습하고, Gumbel‑Softmax와 MMD 제약을 결합한 차별화 가능한 트리거 최적화를 제안한다. 실험 결과, 제안 방법(STAB)은 기존 정적·동적 공격보다 교차 데이터셋에서 공격 성공률이 12.4%p 높으며, 방어 적용 후에도 73.2%의 성공률을 유지한다.
상세 분석
STAB은 기존 백도어 공격이 직면한 “전이성 vs. 은폐성” 딜레마를 근본적으로 재구성한다. 정적 트리거는 고정된 죽은 코드 패턴을 삽입해 전이성은 높지만, 코드‑특화 방어에 쉽게 탐지된다. 반면 동적 트리거는 식별자 이름을 상황에 맞게 바꾸어 은폐성을 확보하지만, 손실 곡면의 급격한 최소점(Sharp minima)에서 최적화되기 때문에 데이터 분포가 달라지면 효과가 급격히 감소한다. 논문은 이러한 현상을 “Flat region hypothesis”로 정리한다. 손실 평탄 영역은 파라미터 변동에 강건하며, 다양한 데이터셋에 걸쳐 공통적인 코드 패턴을 학습한다는 기존 연구(SAM, flat minima)와 일치한다.
STAB의 핵심은 두 단계로 나뉜다. 첫 번째 단계에서는 공개 코드 저장소에서 구축한 서브게이트 데이터셋 D_s에 SAM을 적용해 파라미터 θ_s를 평탄 영역으로 끌어온다. SAM은 min‑max 형태의 목표함수 L_SAM(θ, D)=min_θ max_{‖δ‖≤ρ} L(θ+δ, D) 로 정의되며, 여기서 ρ는 허용 perturbation 크기이다. 이 과정은 모델이 작은 가중치 변동에도 손실이 크게 증가하지 않도록 학습함으로써, 데이터‑특정한 미세 패턴보다 보편적인 코드 구조를 포착하게 만든다.
두 번째 단계에서는 식별자 교체를 위한 트리거 분포를 연속적으로 최적화한다. 기존 방법은 식별자마다 그리디하게 최적 토큰을 선택했지만, 이는 전역 최적을 놓치고 지역 최소에 머문다. STAB은 Gumbel‑Softmax 이완을 도입해 이산 토큰 선택을 미분 가능하게 만든다. 구체적으로, 각 식별자 위치 i에 대해 K개의 후보 토큰에 대한 로그 확률 π_i를 학습하고, Gumbel‑Softmax 샘플 z_i=softmax((π_i+g_i)/τ) (g_i는 Gumbel 잡음, τ는 온도) 로 연속적인 근사값을 얻는다. 이렇게 얻은 z_i는 전체 트리거 조합에 대한 기대 손실을 계산하는 데 사용된다.
또한, 코드의 문법·의미 일관성을 보장하기 위해 Maximum Mean Discrepancy(MMD) 제약을 도입한다. 트리거 적용 전후의 토큰 임베딩 분포 차이를 MMD로 측정하고, 이를 손실에 λ·MMD 형태로 가중합한다. 결과적으로, 최적화는 (1) 백도어 성공률을 최대화하고, (2) 코드 자연스러움을 유지하며, (3) 평탄 모델 파라미터 위에서 학습된 트리거가 다양한 데이터셋에 일반화되도록 한다.
실험은 세 개의 공개 코드 데이터셋(예: CodeSearchNet, BigCloneBench, 기타)과 두 종류의 코드 모델(Transformer‑based 코드 생성 모델과 코드 이해 모델)에서 수행되었다. 교차 데이터셋 설정에서 STAB은 평균 80.1%의 공격 성공률을 기록했으며, 이는 가장 강력한 동적 공격보다 12.4%p 높은 수치다. 방어 시나리오(예: Kill‑BadCode, EliBadCode)에서도 73.2%의 성공률을 유지해, 정적 트리거가 방어에 의해 완전히 무력화되는 상황과는 대조적이다. 또한, 깨끗한 입력에 대한 정확도 저하가 거의 없으며, 트리거가 삽입된 코드의 컴파일 오류율도 0%에 가깝다.
이 논문의 주요 기여는 다음과 같다. (1) 평탄 손실 영역을 이용해 전이 가능한 백도어 트리거를 생성한다는 새로운 관점 제시, (2) SAM과 Gumbel‑Softmax를 결합해 이산 트리거 탐색을 차별화 가능하게 만든 최적화 프레임워크 설계, (3) MMD 기반 문법·의미 제약을 통해 실용적인 코드 변조를 보장, (4) 다양한 데이터·모델 환경에서 기존 공격을 능가하는 실증적 결과 제공. 이러한 접근은 백도어 공격 연구뿐 아니라, 모델 강건성, 전이 학습, 그리고 코드 보안 분야에 새로운 연구 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기