대형 언어 모델 보안 강화 인간 및 알고리즘 적대 프롬프트 저항성 평가

초록

본 연구는 Phi‑2, Llama‑2‑7B‑Chat, GPT‑3.5‑Turbo, GPT‑4 네 모델을 SALAD‑Bench의 1,200개 프롬프트로 평가한다. 인간이 만든 악의적 프롬프트와 AutoDAN, GCG, TAP 세 가지 알고리즘 공격을 적용해 공격 성공률을 측정했으며, Llama‑2가 평균 3.4%로 가장 견고하고 Phi‑2가 7.0%로 가장 취약함을 확인했다. 특히 GCG와 TAP는 목표 모델(Llama‑2)에는 낮은 성공률을 보였지만 다른 모델로 전이될 경우 GPT‑4에서 17%까지 상승한다. Friedman 검정 결과 해악 카테고리별 차이가 통계적으로 유의(p<0.001)했으며, 악용 프롬프트가 가장 높은 성공률(10.71%)을 보였다. 연구는 모델 간 전이 취약성을 강조하고 방어 전략 수립에 실질적 인사이트를 제공한다.

상세 요약

본 논문은 현재 가장 널리 사용되는 네 종류의 대형 언어 모델(LLM)에 대해 체계적인 보안 평가를 수행한다. 평가에 사용된 SALAD‑Bench 데이터셋은 6개의 해악 카테고리(예: 악용, 허위 정보, 폭력 선동, 성적 콘텐츠, 차별·혐오, 개인정보 침해)를 포함하고 있으며, 각 카테고리별로 200개의 프롬프트가 균등하게 배분되어 총 1,200개의 테스트 케이스를 구성한다. 공격 벡터는 크게 인간이 직접 작성한 악의적 프롬프트와 세 가지 자동화된 알고리즘 공격(AutoDAN, Greedy Coordinate Gradient, Tree‑of‑Attacks‑with‑pruning)으로 구분된다. AutoDAN은 사전 훈련된 적대적 네트워크를 이용해 모델의 안전성 필터를 회피하도록 설계되었으며, GCG는 손실 함수의 기울기를 이용해 최소한의 토큰 변형으로 목표 해악 출력을 유도한다. TAP는 다중 단계 탐색과 가지치기를 결합해 탐색 공간을 효율적으로 축소하면서도 높은 성공률을 목표로 한다.

실험 결과는 모델별, 공격별 성공률을 정량화한다. Llama‑2‑7B‑Chat은 전체 평균 3.4%라는 가장 낮은 성공률을 기록했으며, 특히 인간 작성 프롬프트에 대한 방어가 강력했다. 반면 Phi‑2는 7.0%로 가장 높은 취약성을 보였으며, 특히 AutoDAN과 GCG에 대해 상대적으로 높은 성공률을 나타냈다. GPT‑3.5‑Turbo와 GPT‑4는 중간 수준의 방어력을 보였지만, GCG와 TAP가 전이될 경우 GPT‑4에서 17%까지 성공률이 급증하는 현상이 관찰되었다. 이는 특정 모델에 최적화된 적대적 프롬프트가 다른 모델의 안전성 메커니즘을 우회할 수 있음을 시사한다.

통계적 검증을 위해 Friedman 검정을 적용했으며, 해악 카테고리 간 차이가 p<0.001로 유의미함을 확인했다. 특히 ‘악용’ 카테고리에서 평균 성공률이 10.71%로 가장 높았으며, 이는 모델이 실제 악의적 의도에 대해 가장 취약함을 의미한다. 전이 공격에 대한 분석에서는 목표 모델에서 낮은 성공률을 보였던 GCG와 TAP가 다른 모델에 적용될 때 성공률이 2배 이상 상승하는 패턴이 발견되었다. 이는 방어 메커니즘이 모델 고유의 파라미터와 학습 데이터에 크게 의존한다는 점을 강조한다.

연구는 또한 방어 전략에 대한 시사점을 제공한다. 첫째, 모델 간 전이 가능성을 고려한 다중 모델 연합 방어가 필요하다. 둘째, 자동화된 공격에 대한 탐지 및 차단을 위한 메타‑학습 기반 감시 시스템이 효과적일 수 있다. 셋째, 인간이 작성한 악의적 프롬프트에 대한 사전 필터링과 함께, 알고리즘 공격에 대한 시뮬레이션 기반 스트레스 테스트를 정기적으로 수행함으로써 보안 취약점을 사전에 식별할 수 있다. 마지막으로, 모델 업데이트 시 기존 방어 체계가 새로운 공격 벡터에 대해 퇴화하지 않도록 지속적인 벤치마크와 검증 프로세스를 구축해야 한다.

요약하면, 본 연구는 LLM 보안 평가에 있어 인간·알고리즘 복합 공격 시나리오를 최초로 포괄적으로 적용했으며, 모델 간 전이 취약성 및 해악 카테고리별 차이를 정량화함으로써 향후 방어 메커니즘 설계에 중요한 근거 자료를 제공한다.

초록

상세 요약

📜 논문 원문 (영문)