다중도메인 정책 기반 LLM 가드레일 벤치마크 Poly‑Guard
초록
Poly‑Guard는 8개 고위험 도메인(소셜미디어, 인사·HR, 금융, 법률, 교육, 코드·생성, 사이버보안, 일반 규제)을 아우르는 150개 이상의 공식 안전 정책을 기반으로 400여 개 위험 카테고리·1 000여 개 안전 규칙을 정제하고, 10만 개 이상의 안전·위험 예시를 다양한 대화 형식과 공격‑강화 인스턴스로 구성한 대규모 데이터셋이다. 19개 최신 가드레일 모델을 평가한 결과, 도메인별 성능 편차, 모델 진화에 따른 위험 커버리지 확대·공통 위험 성능 저하, 그리고 최적화된 적대적 프롬프트에 대한 취약성이 지속적으로 드러났다.
상세 분석
Poly‑Guard는 기존 가드레일 벤치마크가 “위험 카테고리”를 임의로 정의하고 도메인 차이를 무시한 점을 근본적으로 개선한다. 논문은 먼저 각 도메인별 공식 정책(예: EU AI Act, GDPR, FINRA, OWASP 등)을 자동 스크래핑·파싱하는 파이프라인을 설계했으며, PDF·HTML·Markdown 등 다양한 포맷을 처리할 수 있는 ‘정책 스크래핑 에이전트’를 구현했다. 추출된 텍스트는 GPT‑4o‑지원 프롬프트를 통해 2‑단계 계층(위험 카테고리 → 세부 안전 규칙)으로 정제·클러스터링된다. 이 계층 구조는 기존 데이터셋이 제공하던 ‘카테고리 수준’보다 한 단계 낮은 ‘규칙 수준’까지 라벨링을 가능하게 하여, 모델 오류를 규칙 단위로 정확히 진단할 수 있다.
데이터 생성 단계에서는 비정제 LLM을 이용해 ‘규칙 위반’ 예시를 생성하고, 동일 토픽을 유지하면서 ‘디톡시피케이션 프롬프트’를 적용해 안전한 버전을 만든다. 이렇게 만든 안전·위험 쌍은 선언형, 질문·명령형, 다중 턴 대화 등 3가지 상호작용 형식으로 변형돼 실제 사용자 인터페이스를 모사한다. 특히 ‘공격‑강화 인스턴스’를 추가함으로써, 위험 카테고리 전환, 추론 분산, 명령 하이재킹 등 최신 jailbreak 기술을 적용한 적대적 프롬프트를 자동 최적화(PAIR, AutoDAN)하여 가드레일 모델의 내성을 시험한다.
벤치마크 결과는 19개 가드레일 모델이 도메인별로 큰 성능 차이를 보이며, 일부 모델은 특정 도메인(예: 사이버보안)에서는 높은 F1을 기록하지만 다른 도메인(예: HR)에서는 거의 무능함을 확인했다. 모델 시리즈가 진화할수록 위험 커버리지는 확대되지만, ‘공통 위험’(예: 개인정보 유출, 폭력 표현)에서는 정밀도가 오히려 감소하는 ‘진화 트레이드오프’ 현상이 나타났다. 규모가 큰 모델이 반드시 우수한 것은 아니며, 작은 모델이 특정 도메인에서 더 높은 정확도를 보이는 경우도 있었다. 적대적 공격에 대해서는 모든 모델이 높은 성공률(>70%)로 회피당했으며, 특히 고위험 카테고리(예: 아동 성착취)에서는 방어가 다소 강했지만 저위험 카테고리에서는 거의 무방비 상태였다. 이러한 결과는 현재 가드레일 기술이 정책‑정합성보다는 일반화된 위험 탐지에 치중돼 있음을 시사한다.
논문은 또한 ‘보수적 편향(conservative bias)’을 지적한다. 대부분의 모델이 거짓 양성보다 거짓 음성을 선호해, 위험을 과소 판단하는 경향이 있다. 이는 실제 운영 환경에서 위험을 놓치는 치명적 오류로 이어질 수 있다. 마지막으로, 데이터셋 자체가 정책 기반이므로 향후 정책 업데이트에 따라 자동 재생성·재학습 파이프라인을 구축할 수 있다는 점을 강조한다. 이는 가드레일 시스템이 지속 가능한 정책‑정합성을 유지하도록 돕는다.
댓글 및 학술 토론
Loading comments...
의견 남기기