동적 위험 인식 체인오브생각으로 LLM 안전을 재구성

동적 위험 인식 체인오브생각으로 LLM 안전을 재구성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PACT는 전역(글로벌)과 사용자 정의 정책을 2단계 계층 구조로 나누고, 위험 분류→행동 선택 과정을 체인오브생각(CoT) 형태로 명시화한다. 전역 정책은 변형 불가능한 안전 경계(아동 보호, 폭력 극단주의 등)를 강제하고, 사용자 정책은 실행 시점에 자유롭게 설정·조정할 수 있다. 위험 라벨마다 ‘COMPLY·GUIDE·REJECT’ 중 하나의 행동을 매핑함으로써 과잉 거부와 과소 제한 사이의 안전‑유용성 트레이드오프를 크게 완화한다. 실험 결과 PACT는 기존 최고 수준 모델에 필적하는 안전 성능을 유지하면서, 사용자 정의 정책 준수율에서는 가장 높은 제어성을 보였다.

상세 분석

본 논문은 LLM 안전 정렬에서 “정적·일괄 정책”이 초래하는 안전‑유용성 트레이드오프를 계층적 정책 구조와 위험‑인식 CoT 경로로 해결하고자 한다. 핵심 설계는 (1) 글로벌 정책(P_G) – 파라미터 수준에서 사전 학습되어 절대 변경 불가하고, 위험 카테고리(아동 안전, 폭력 극단주의 등)를 포괄하는 고정 라벨 집합을 제공한다. (2) 사용자 정책(P_U) – 런타임에 프롬프트로 주입되는 정책으로, 도메인‑특화 위험 라벨과 ‘COMPLY·GUIDE·REJECT’ 매핑을 자유롭게 정의한다.

PACT는 입력 질의를 먼저 P_G에 적용해 전역 위험을 탐지하고, 해당 위험이 발견되면 즉시 전역 행동(주로 GUIDE 또는 REJECT)으로 조기 종료한다. 전역 위험이 없을 경우에만 P_U를 평가해 라벨‑액션 매핑을 수행한다. 이 흐름은 “Classify → Act”를 명시적으로 코딩한 CoTPath에 의해 구현되며, 라벨‑액션 일관성을 보장하기 위해 각 라벨에 대응하는 3가지 사전 생성 응답(r_C, r_G, r_R)을 학습 데이터에 포함한다.

데이터 구축 단계에서는 셀프‑디스틸레이션을 활용한다. 기본 모델(Qwen3‑8B)을 이용해 위험 라벨링과 3가지 행동별 응답을 동시에 생성하고, 이를 D_distill에 저장한다. 이렇게 하면 외부 라벨러 없이도 대규모(≈57만) 위험·안전 샘플을 확보할 수 있다. 이어서 통합 SFT 단계에서 CoTPath 형태의 프롬프트‑응답 쌍을 학습시켜, 모델이 추론 시 자동으로 “전역 탐지 → 사용자 탐지 → 행동 선택” 순서를 따르도록 만든다.

기술적 강점은 다음과 같다.

  1. 계층적 안전 보장: 전역 정책은 파라미터에 고정돼 변조가 불가능하므로, 악의적 프롬프트가 사용자 정책을 통해 전역 위험을 우회하는 것을 원천 차단한다.
  2. 런타임 가변성: 사용자 정책은 프롬프트 수준에서 자유롭게 교체·조정 가능해, 의료, 게임, 교육 등 도메인별 요구에 맞는 위험 라벨과 행동을 정의할 수 있다.
  3. 투명한 의사결정: CoTPath는 위험 분류와 행동 선택 과정을 텍스트로 출력하므로, 운영자는 모델의 판단 근거를 바로 검증·감사할 수 있다.
  4. 라벨‑액션 일관성: 라벨당 3가지 사전 정의 응답을 학습에 포함함으로써, 라벨이 결정되면 반드시 매핑된 행동을 수행하도록 강제한다. 충돌 라벨이 존재할 경우 사전 정의된 우선순위 규칙으로 해결한다.

실험에서는 5개의 공개 안전 벤치마크(Octopus‑Seval, Qwen‑Guard 등)와 3개의 대형 모델(Qwen‑3‑235B, DeepSeek‑671B 등)을 비교했다. 전역 정책 평가에서는 PACT가 0.20.4% 수준의 미세 차이로 최고 수준을 유지했으며, 사용자 정책 평가에서는 정책 준수율(정확히 지정된 행동을 수행)에서 1218%p 상승해 가장 높은 제어성을 보였다. 또한, “과잉 거부”와 “과소 제한” 사례를 정량화한 분석에서 기존 모델 대비 거부율은 27% 감소, 위험 누락율은 31% 감소했다.

한계점으로는 (i) 전역 정책 라벨이 고정돼 새로운 전역 위험이 등장하면 재학습이 필요하고, (ii) 현재는 라벨‑액션 매핑이 3가지 고정 행동에 국한돼 있어 보다 세밀한 응답 변형(예: 부분적 정보 제공)에는 확장이 어려울 수 있다. 향후 연구에서는 다중 단계 가이드(GUIDE‑STEP)와 RLHF 기반 행동 보정 등을 통해 정책 유연성을 더욱 강화할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기