지속적인 미세조정을 통한 백도어 공격의 지속성

읽는 시간: 2 분
...

📝 원문 정보

  • Title: Persistent Backdoor Attacks under Continual Fine-Tuning of LLMs
  • ArXiv ID: 2512.14741
  • 발행일: 2025-12-12
  • 저자: Jing Cui, Yufei Han, Jianbin Jiao, Junge Zhang

📝 초록 (Abstract)

백도어 공격은 대형 언어 모델(LLM)에 악의적인 행동을 삽입하여 공격자가 특정 트리거를 통해 유해한 출력이나 안전 제어 회피를 가능하게 한다. 그러나 배포 후 사용자 주도형 지속적인 미세조정 과정에서 삽입된 백도어가 얼마나 오래 유지되는지는 거의 연구되지 않았다. 기존 연구는 백도어의 효과와 일반화성을 모델 출시 시점에만 평가했으며, 실제로 단순히 삽입된 백도어는 업데이트 후 급격히 약화되는 것이 관찰된다. 본 연구에서는 다단계 사후 미세조정 과정에서도 백도어가 지속될 수 있는지, 그리고 어떻게 지속시킬 수 있는지를 탐구한다. 우리는 P‑Trojan이라는 트리거 기반 공격 알고리즘을 제안한다. 이 알고리즘은 독성 그래디언트를 토큰 임베딩상의 정상 작업 그래디언트와 정렬시켜, 이후 업데이트 시 백도어 매핑이 억제되거나 망각될 가능성을 최소화한다. 이론적 분석을 통해 지속적인 백도어 공격이 연속 미세조정 후에도 실현 가능함을 증명한다. Qwen2.5와 LLaMA3 계열 모델 및 다양한 작업 순서를 대상으로 한 실험 결과, P‑Trojan은 청정 작업 정확도를 유지하면서 99 % 이상의 백도어 지속성을 달성한다. 우리의 발견은 현실적인 모델 적응 파이프라인에서 지속성을 고려한 평가와 보다 강력한 방어 메커니즘이 필요함을 강조한다.

💡 논문 핵심 해설 (Deep Analysis)

본 논문은 대형 언어 모델(LLM)의 배포 후 지속적인 파인튜닝 환경에서 백도어 공격이 얼마나 오래 살아남는지를 최초로 체계적으로 조사한다. 기존 백도어 연구는 주로 모델 출시 직후의 공격 성공률과 일반화 능력에 초점을 맞추었으며, 실제 서비스에서는 사용자가 모델을 새로운 데이터와 태스크에 맞춰 반복적으로 미세조정한다는 점을 간과했다. 이러한 연속 학습 과정은 모델 파라미터를 지속적으로 갱신하기 때문에, 초기 삽입된 백도어가 “망각”되거나 정상 학습 그래디언트에 의해 상쇄될 위험이 크다.

P‑Trojan은 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 트리거 토큰의 임베딩에 대한 손상된(악성) 그래디언트를 정상 작업에 대한 그래디언트와 방향을 맞춘다(gradient alignment). 이를 통해 파인튜닝 단계에서 정상 데이터가 백도어를 억제하는 대신, 오히려 백도어와 정상 작업이 공동으로 학습되는 형태를 만든다. 둘째, 다단계 학습 시나리오를 가정하고, 각 단계마다 동일한 정렬 목표를 반복 적용함으로써 백도어 신호가 누적되도록 설계한다.

이론적 분석에서는 손실 함수의 1차 근사와 그래디언트 내적을 이용해, 정렬…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키