백도어 탐지와 정화의 새로운 패러다임, 시간적 노이즈 일관성 방어
초록
본 논문은 확산 모델에 삽입된 백도어를 회색‑박스 환경에서 탐지하고, 트리거에 의존하지 않는 방식으로 정화하는 TNC‑Defense 프레임워크를 제안한다. 핵심은 백도어가 트리거 입력 시 인접 diffusion timestep 사이의 노이즈 예측 차이가 급격히 증가하는 ‘시간적 노이즈 불일치’ 현상을 이용하는 것이다. 탐지 모듈(TNC‑Detect)은 제한된 청정 샘플 기반 통계 경계로 이상 timestep을 식별하고, 정화 모듈(TNC‑Detox)은 해당 timestep에만 파라미터 미세조정을 적용해 백도어 경로를 차단한다. 실험 결과, 평균 탐지 정확도가 11 % 상승하고, 트리거가 포함된 샘플 98.5 %를 무력화하면서도 이미지 품질 저하가 미미함을 보였다.
상세 분석
본 연구는 확산 모델의 역방향 디노이징 과정에서 발생하는 ‘시간적 노이즈 일관성(Temporal Noise Consistency, TNC)’을 새로운 보안 신호로 활용한다. 기존 백도어 탐지는 주로 모델 내부 활성값, 토큰‑레벨 교란, 혹은 출력 다양성 감소 등을 분석했으나, 확산 모델은 고차원 연속적인 시간 흐름을 갖기 때문에 이러한 신호가 약하거나 접근이 어려웠다. 저자들은 백도어가 트리거 입력에 반응할 때 특정 timestep 구간에서 인접 단계의 노이즈 예측값(ε̂θ(x_t, t, c)) 사이의 평균 제곱 오차(MSE)가 급격히 상승한다는 현상을 발견했다. 이는 백도어가 학습 단계에서 특정 시점에 ‘비정상적인 경로’를 삽입해, 정상 입력에서는 평탄한 노이즈 감소 곡선을 유지하지만 트리거가 있으면 급격히 변형된다는 의미이다.
TNC‑Detect는 이 현상을 정량화하기 위해, 청정 프롬프트 집합으로부터 각 timestep별 평균 MSE와 분산을 추정한다. 이후 입력 샘플에 대해 동일한 MSE 시퀀스를 계산하고, 분산‑적응형 경계(variance‑adaptive consistency bound)를 적용해 이상 timestep을 탐지한다. 이 과정은 모델 파라미터에 접근할 필요가 없으며, 단일 추론 로그만으로 수행되므로 회색‑박스(gray‑box) 조건에 완벽히 부합한다.
탐지된 이상 timestep을 활용한 TNC‑Detox는 두 가지 혁신을 제공한다. 첫째, 트리거를 직접 복원하거나 식별하지 않고, ‘트리거‑불가지(trigger‑agnostic)’ 방식으로 프롬프트를 내용 보존 형태로 변형(augmentation)하여 백도어가 포함된 학습 샘플을 인공적으로 생성한다. 둘째, ‘시간‑인식(timestep‑aware)’ 파라미터 미세조정을 적용한다. 즉, 전체 모델이 아니라 이상 timestep에 해당하는 디노이징 네트워크의 일부 레이어만을 대상으로 노이즈 방향 디커플링(noise direction decoupling) 제약을 추가해, 백도어가 유도하는 비정상적인 노이즈 흐름을 억제한다. 이 접근법은 정화 비용을 크게 낮추면서도 정상 생성 품질을 보존한다.
실험에서는 BadDiffusion, TrojDiff, BadT2I, VillanDiffusion, EvilEdit 등 5가지 대표적인 백도어 공격을 대상으로, 기존 최첨단 탐지·정화 기법과 비교하였다. 탐지 정확도는 평균 11 % 향상되었고, 정화 성공률(트리거 샘플 무력화)은 98.5 %에 달했다. 또한 FID, IS 등 이미지 품질 지표에서 정화 전후 차이는 미미했으며, 추가 연산 오버헤드도 무시할 수준이었다.
이 논문은 ‘시간적 노이즈 일관성’이라는 새로운 물리적 현상을 보안 신호로 도입함으로써, 파라미터 비공개·쿼리 제한 상황에서도 실용적인 백도어 방어를 구현한다는 점에서 의미가 크다. 특히, 탐지와 정화를 하나의 프레임워크에 통합하고, 트리거에 의존하지 않는 점은 다양한 실서비스에 바로 적용 가능하도록 만든다. 향후 연구는 다른 확산 변형(예: 텍스트‑투‑이미지, 비디오 확산)이나 더 복잡한 샘플링 스케줄에 대한 일반화, 그리고 다중 백도어 동시 존재 상황에 대한 확장성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기