안전 평가의 불확실성 온도와 시드에 따른 대형 언어 모델 거부 결정 변동성

읽는 시간: 4 분
...

📝 원문 정보

  • Title:
  • ArXiv ID: 2512.12066
  • 발행일:
  • 저자: Unknown

📝 초록 (Abstract)

현재 대형 언어 모델(Large Language Model, LLM)의 안전성 평가는 단일 샷 테스트에 의존하고 있으며, 이는 모델의 응답이 결정적이고 안전 정렬을 대표한다는 가정을 내포한다. 우리는 무작위 시드와 온도 설정에 따른 안전 거부 결정의 안정성을 조사함으로써 이 가정에 도전한다. Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B 등 세 가지 모델군의 네 가지 instruction‑tuned 모델을 876개의 유해 프롬프트와 20가지 샘플링 구성(온도 4가지 × 시드 5가지)에서 테스트한 결과, 모델에 따라 18 %‑28 %의 프롬프트에서 결정이 뒤바뀌는 현상이 관찰되었다. 안전 안정성 지수(Safety Stability Index, SSI)는 온도가 높을수록 결정 안정성이 크게 감소함을 보여주며(프리드먼 χ² = 396.81, p < 0.001), 온도 0.0에서 평균 SSI는 0.977이었으나 온도 1.0에서는 0.942로 떨어졌다. Claude 3.5 Haiku를 외부 판정자로 활용해 모든 모델군에 대해 검증했으며, 주요 Llama 70B 판정자와의 판정 일치도는 89.0 %이며 코헨 κ는 0.62였다. 각 모델 내부에서는 높은 응답률을 보이는 프롬프트일수록 안정성이 낮았으며(스피어만 ρ = ‑0.47 ~ ‑0.70, p < 0.001), 이는 모델이 경계선 요청에 대해 더 흔들린다는 것을 의미한다. 이러한 결과는 단일 샷 안전 평가가 신뢰할 수 있는 안전성 평가에 충분하지 않으며, 평가 프로토콜이 모델 행동의 확률적 변동성을 고려해야 함을 시사한다. 온도별로 풀링한 다중 샘플 정답과 단일 샷 평가의 일치율은 92.4 %에 불과했으며(고정 온도에서는 94.2 %‑97.7 %), 신뢰할 만한 안전 평가를 위해서는 프롬프트당 최소 3개의 샘플을 사용할 것을 권고한다.

💡 논문 핵심 해설 (Deep Analysis)

본 연구는 최근 LLM 안전성 평가가 지나치게 단순화된 점을 지적하고, 모델의 내재적 확률적 특성을 반영한 새로운 평가 패러다임을 제시한다. 먼저, 실험 설계는 네 가지 모델군(Llama 3.1, Qwen 2.5, Qwen 3, Gemma 3)에서 각각 8 B ~ 12 B 규모의 instruction‑tuned 모델을 선정하고, 876개의 유해 프롬프트를 20가지 샘플링 설정(온도 0.0, 0.3, 0.7, 1.0 × 시드 5개)으로 테스트했다. 이는 기존 연구가 주로 온도 0.0 혹은 0.7에서 단일 시드만을 사용한 것과 달리, 온도와 시드라는 두 축에서 다차원적인 변동성을 포착하려는 시도이다.

결과적으로, ‘결정 플립(decision flip)’ 현상이 18 %‑28 % 수준으로 빈번히 발생했으며, 이는 모델이 동일한 프롬프트에 대해 상황에 따라 거부와 응답을 오갈 수 있음을 의미한다. 특히 온도 상승이 SSI를 현저히 낮추는 것으로 나타났는데, 이는 온도가 높을수록 토큰 선택 확률이 평탄해져 낮은 확신도 하에 다양한 출력을 생성하기 때문이다. 프리드먼 검정(χ² = 396.81, p < 0.001)으로 통계적 유의미성을 확보했으며, 온도 0.0에서 평균 SSI 0.977은 거의 완전한 안정성을, 온도 1.0에서 0.942는 여전히 높은 수준이지만 실용적인 안전 평가에는 충분히 차이가 있음을 보여준다.

외부 판정자로 Claude 3.5 Haiku를 활용한 교차 검증은 모델 간 일관성을 확인하는 중요한 단계다. 두 판정자 간 89 % 일치율과 코헨 κ = 0.62는 중간 정도의 합의를 나타내며, 이는 LLM 기반 판정 자체가 어느 정도 주관성을 내포하고 있음을 시사한다. 따라서 향후 연구에서는 다수의 외부 판정자를 활용하거나 인간 전문가와의 혼합 평가가 필요할 것이다.

또한, 프롬프트별 응답률과 SSI 간의 부(-)의 상관관계(ρ = ‑0.47 ~ ‑0.70)는 ‘경계선’ 프롬프트, 즉 모델이 명확히 거부하거나 수용하기 어려운 애매한 요청에서 변동성이 크게 나타난다는 점을 강조한다. 이는 안전 정책 설계 시 ‘위험도’가 높은 경계선 요청에 대해 보다 보수적인 판단 기준을 적용해야 함을 암시한다.

마지막으로, 단일 샷 평가가 다중 샘플 정답과 92.4 % 일치한다는 사실은 겉보기에 높은 정확도를 보이지만, 실제 위험 상황에서는 7 % ~ 8 %의 오차가 치명적인 결과를 초래할 수 있음을 경고한다. 연구진은 프롬프트당 최소 3개의 샘플을 수집해 다중 샷 평균을 취할 것을 권고했으며, 이는 평가 비용과 시간 증가라는 트레이드오프를 동반한다. 그러나 안전성이라는 고위험 분야에서는 이러한 비용을 감수하는 것이 정당화된다.

요약하면, 본 논문은 LLM 안전성 평가에 있어 확률적 변동성을 무시할 수 없으며, 온도와 시드 설정을 포함한 다중 샘플링이 필수적임을 실증적으로 입증한다. 향후 연구는 (1) 다양한 모델 규모와 도메인에 대한 일반화 검증, (2) 인간‑AI 혼합 판정 체계 구축, (3) 실시간 서비스 환경에서의 비용 효율적인 다중 샘플링 전략 개발 등을 통해 안전 평가 프레임워크를 정교화해야 할 것이다.

📄 논문 본문 발췌 (Translation)

현재 대형 언어 모델(Large Language Model, LLM)의 안전성 평가는 단일 샷 테스트에 의존하고 있으며, 이는 모델의 응답이 결정적이며 모델의 안전 정렬을 대표한다는 가정을 내포한다. 우리는 무작위 시드와 온도 설정에 따른 안전 거부 결정의 안정성을 조사함으로써 이 가정에 도전한다. Llama 3.1 8B, Qwen 2.5 7B, Qwen 3 8B, Gemma 3 12B 등 세 가지 모델군의 네 가지 instruction‑tuned 모델을 876개의 유해 프롬프트와 20가지 샘플링 구성(온도 4가지 × 시드 5가지)에서 테스트한 결과, 모델에 따라 18 %‑28 %의 프롬프트에서 결정이 뒤바뀌는 현상이 관찰되었다. 안전 안정성 지수(Safety Stability Index, SSI)는 온도가 높을수록 결정 안정성이 크게 감소함을 보여주며(프리드먼 χ² = 396.81, p < 0.001), 온도 0.0에서 평균 SSI는 0.977이었으나 온도 1.0에서는 0.942로 떨어졌다. Claude 3.5 Haiku를 외부 판정자로 활용해 모든 모델군에 대해 검증했으며, 주요 Llama 70B 판정자와의 판정 일치도는 89.0 %이며 코헨 κ는 0.62였다. 각 모델 내부에서는 높은 응답률을 보이는 프롬프트일수록 안정성이 낮았으며(스피어만 ρ = ‑0.47 ~ ‑0.70, p < 0.001), 이는 모델이 경계선 요청에 대해 더 흔들린다는 것을 의미한다. 이러한 결과는 단일 샷 안전 평가가 신뢰할 수 있는 안전성 평가에 충분하지 않으며, 평가 프로토콜이 모델 행동의 확률적 변동성을 고려해야 함을 시사한다. 온도별로 풀링한 다중 샘플 정답과 단일 샷 평가의 일치율은 92.4 %에 불과했으며(고정 온도에서는 94.2 %‑97.7 %), 신뢰할 만한 안전 평가를 위해서는 프롬프트당 최소 3개의 샘플을 사용할 것을 권고한다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키