짧은 길이 적대적 훈련으로 긴 길이 탈옥 방어
초록
본 논문은 LLM에 대한 탈옥 공격을 방어하기 위해, 긴 길이의 적대적 접미사를 가진 공격에 대해 짧은 길이(≈√M)의 적대적 접미사만으로도 충분히 방어할 수 있음을 이론과 실험으로 입증한다. 선형 트랜스포머의 인‑컨텍스트 학습 모델을 분석해 일반화 경계가 √M_test / M_train 비율에 비례함을 보였으며, 실제 오픈소스 LLM에 짧은 접미사 길이(20 토큰)로 적대적 훈련을 수행했을 때, 최대 120 토큰 길이의 탈옥 공격 성공률을 30% 이상 감소시켰다.
상세 분석
이 연구는 두 가지 핵심 질문에 답한다. 첫째, 적대적 훈련(AT) 단계에서 사용되는 프롬프트 길이가 테스트 시 탈옥 공격에 대한 모델의 견고성에 어떤 영향을 미치는가? 둘째, 긴 접미사 길이의 탈옥 공격을 방어하기 위해 반드시 긴 접미사를 사용해야 하는가? 이를 위해 저자들은 ‘접미사 탈옥’이라는 특수한 공격 시나리오를 정의한다. 공격자는 유해 명령어 뒤에 토큰 시퀀스(접미사)를 추가해 모델이 의도된 해로운 답변을 생성하도록 유도한다. 접미사의 길이가 M일 때, 기존 연구는 M이 클수록 공격 성공 확률이 높아진다고 보고했지만, 긴 접미사를 합성하는 비용이 급증한다는 실용적 한계가 있다.
이론적 분석에서는 인‑컨텍스트 학습(ICL) 프레임워크를 채택한다. 선형 회귀 작업을 수행하는 선형 트랜스포머(LSA) 모델을 가정하고, 입력 샘플 N개와 질의 샘플 하나로 구성된 ICL 프롬프트에 M개의 ‘접미사’ 샘플을 추가한다. 각 접미사 샘플은 작은 ℓ2 반경 ε 안에서만 변형 가능하도록 제한함으로써 실제 토큰 공간의 제약을 모사한다. 모델은 최적의 가중치 θ를 학습한 뒤, 접미사에 대한 최적의 적대적 교란 Δ를 선택해 예측 오차를 최대화한다. 저자들은 이 과정에서 얻은 ‘적대적 일반화 오류’ R_adv(θ,M) 를 기대값 형태로 정의하고, 이를 상한하는 일반화 경계식을 도출한다. 핵심 결과는
R_adv(θ,M_test) ≤ O( √M_test / M_train )
이라는 형태이며, 여기서 M_train은 훈련 시 사용된 적대적 접미사 개수, M_test는 테스트 시 공격에 사용된 접미사 개수이다. 즉, 훈련에서 √M 규모만큼의 접미사를 사용하면, M 규모의 공격에 대해 오류가 선형적으로 억제된다. 이 식은 M_train이 M_test의 제곱근에 비례하면 오류가 상수 수준으로 유지된다는 의미이며, ‘짧은 길이 AT가 긴 길이 공격을 방어한다’는 직관을 정량적으로 뒷받침한다.
실험 부분에서는 5개의 오픈소스 LLM(예: LLaMA‑7B, Vicuna‑13B 등)에 대해 GCG 기반 접미사 탈옥 공격을 적용하고, 다양한 접미사 길이(20, 40, 80, 120 토큰)로 AT를 수행했다. 평가 지표는 공격 성공률(ASR)이며, 결과는 M_test의 제곱근과 M_train의 비율이 증가할수록 ASR이 상승한다는 명확한 상관관계를 보여준다. 특히, 20 토큰 길이의 AT만으로도 120 토큰 길이 공격에 대해 평균 30% 이상의 성공률 감소를 달성했으며, 이는 기존 연구에서 제시된 ‘긴 접미사 = 강한 방어’ 가설을 크게 완화한다.
이 논문의 의의는 두드러진다. 첫째, 적대적 훈련 비용을 크게 절감하면서도 실용적인 방어 효과를 확보할 수 있는 이론적 근거를 제공한다. 둘째, 선형 트랜스포머라는 단순 모델을 통해 인‑컨텍스트 학습과 적대적 훈련 사이의 연결 고리를 명시적으로 밝힘으로써, 향후 비선형 대규모 모델에 대한 확장 가능성을 열어준다. 셋째, 실제 LLM에 적용 가능한 실험 설계와 재현 가능한 코드(깃허브) 제공으로 연구 커뮤니티가 바로 활용할 수 있다. 다만, 선형 모델 가정과 토큰 수준의 제한된 교란 범위가 실제 복잡한 언어 모델에 얼마나 그대로 적용될지는 추가 검증이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기