대화형 LLM 위험 인증: 재난 가능성 측정

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 턴 대화에서 대형 언어 모델(LLM)이 재난적인 응답을 생성할 확률을 통계적으로 인증하는 프레임워크 C³LLM을 제안한다. 쿼리 그래프 위의 마코프 과정으로 대화 흐름을 모델링하고, 무작위 노드, 그래프 경로, 적응형 재거절 세 가지 실용적인 분포를 정의해 샘플링한다. 이를 통해 다양한 최첨단 모델에 대해 95% 신뢰구간 기반의 하한을 제공하며, 일부 모델에서는 재난 위험이 70%에 달함을 보여준다.

상세 분석

C³LLM은 “재난 위험(certified catastrophic risk)”이라는 새로운 안전 지표를 정량화한다는 점에서 기존의 정적 프롬프트 기반 벤치마크와 근본적으로 차별된다. 논문은 먼저 쿼리 집합 Q를 정점 V로, 의미적 유사성을 나타내는 간선 E로 구성한 그래프 G를 만든다. 이 그래프 위에 (v, S) 형태의 상태 공간 Ω를 정의하고, 현재 쿼리 v와 이미 사용된 정점 집합 S를 함께 추적함으로써 동일 쿼리의 반복 사용을 방지한다. 마코프 전이 확률은 전방 선택(forward selection)과 후방 선택(backward selection) 두 가지 방식으로 설계되며, 전자는 초기 분포 μ에서 시작해 순차적으로 다음 정점을 선택하고, 후자는 목표 정점 분포 ν에서 시작해 역방향으로 경로를 구성한다.

세 가지 구체적 분포는 다음과 같다. (1) Random node: 매 턴마다 아직 사용되지 않은 정점 중에서 균등 혹은 가중된 확률 π에 따라 무작위로 선택한다. 이는 모델의 전반적인 위험 수준을 베이스라인으로 측정한다. (2) Graph path: 그래프의 인접 관계를 따라 연속적인 경로를 만든다. 여기서는 (a) vanilla 경로와 (b) 마지막 정점을 위험 목표 집합 Q_T에 제한하는 두 변형을 제시한다. 경로 기반 샘플링은 실제 대화에서 문맥이 누적되는 특성을 반영해, 모델이 이전 턴의 정보를 활용해 위험한 답변을 생성하도록 유도한다. (3) Adaptive with rejection: 모델이 “거부” 응답을 보이면 현재 쿼리를 재구성하거나 다른 정점으로 전이한다. 이는 레드팀 공격자가 안전 필터를 회피하기 위해 프롬프트를 지속적으로 조정하는 현실적인 시나리오를 모방한다.

위험 인증은 “판정 함수 J_q∗(r_i) ∈ {0,1}”를 통해 각 턴의 응답 r_i가 사전 정의된 위험 목표 q∗(예: 폭탄 제조법)와 일치하는지를 판단한다. 목표는 주어진 분포 D_n에 대해
Pr_{γ∼D_n}

대화형 LLM 위험 인증: 재난 가능성 측정

초록

상세 분석

댓글 및 학술 토론

의견 남기기