LLM 레드팀 공격 성공률, 능력 격차에 따라 선형·시그모이드로 예측
초록
본 논문은 600여 개의 공격‑대상 모델 쌍을 LLM 기반 탈옥 공격으로 실험해, 공격자의 일반 능력이 높을수록 성공률이 선형적으로 증가하고, 공격자와 대상 간 능력 격차가 커질수록 성공률이 시그모이드 형태로 급격히 감소함을 밝혀냈다. 특히 사회과학 분야 성능이 높은 모델이 탈옥 성공을 강하게 예측한다는 점을 강조한다.
상세 분석
이 연구는 “능력 격차”라는 개념을 도입해 레드팀팅을 정량화한다. 공격자와 대상 모두를 MMLU‑Pro 점수로 측정하고, 네 가지 인간‑유사 탈옥 기법(PAIR, TAP, PAP, Crescendo)을 29개의 다양한 LLM(예: Llama2/3, Mistral, Qwen2.5, Gemini, GPT‑4.1, Claude‑3.7)에서 적용했다. 실험 결과는 세 가지 핵심 트렌드를 보인다. 첫째, 공격자의 전체 성공률(ASR)은 공격자 MMLU‑Pro 점수와 거의 선형 관계(ρ > 0.88)를 보이며, 능력이 높은 모델일수록 프롬프트 설계와 사회공학적 조작에 더 능숙함을 의미한다. 둘째, 고정된 대상 모델에 대해 공격 성공률은 “능력 차이”(공격자 − 대상 점수)와 시그모이드 곡선으로 강하게 연관된다. 즉, 공격자가 대상보다 약간이라도 뒤처지면 성공률이 급격히 0에 수렴하고, 반대로 앞서면 거의 1에 가까워진다. 셋째, MMLU‑Pro의 사회과학(보건, 심리, 철학 등) 서브셋 점수가 STEM 서브셋보다 ASR과 높은 상관관계를 보였다. 이는 설득·조작·윤리적 판단 능력이 탈옥 성공에 핵심적인 역할을 함을 시사한다.
논문은 또한 “weak‑to‑strong” 전환을 경고한다. 현재 인간 레드팀터는 고정된 능력(대략 150 MMLU‑Pro) 수준이지만, 향후 공개 모델이 이 수준을 넘어설 경우 인간 기반 레드팀은 실질적으로 무력화될 가능성이 크다. 반면, 오픈소스 모델을 공격자로 활용하면 기존 서비스에 대한 위험이 급증한다. 저자들은 모델 제공자가 설득·조작 능력을 별도 벤치마크하고, 해당 능력을 제한하는 안전 메커니즘을 도입해야 한다고 주장한다.
이러한 결과는 기존 안전 평가가 “정답률” 중심에서 “사회공학·설득 능력” 중심으로 전환될 필요성을 강조한다. 또한, 능력 격차 기반 스케일링 곡선을 이용해 미래 모델에 대한 레드팀 효율성을 사전에 예측하고, 자동화된 대규모 레드팀 파이프라인을 설계하는 데 실용적인 지표를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기