효율적이고 확장 가능한 악성 LLM 프롬프트 탐지를 위한 BAGEL 프레임워크

효율적이고 확장 가능한 악성 LLM 프롬프트 탐지를 위한 BAGEL 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

BAGEL은 86 M 파라미터 기반 경량 모델들을 부트스트랩 방식으로 앙상블하고, 랜덤 포레스트 라우터와 확률적 샘플링을 결합해 악성 프롬프트를 고정밀·저지연으로 탐지한다. 새로운 공격이 등장하면 작은 모델을 추가·미세조정만으로 시스템을 즉시 확장할 수 있어, 전체 파라미터 430 M만으로도 F1 = 0.92의 성능을 달성한다.

상세 분석

본 논문은 LLM 안전 방어에서 “성능‑효율‑적응성” 삼위일체를 동시에 만족시키는 설계가 가능함을 실증한다. 핵심 아이디어는 (1) 서로 다른 공격 데이터셋에 대해 개별 86 M 파라미터 Prompt Guard 2 모델을 미세조정해 전문화된 ‘프롬프트‑코프’(promptcop)들을 만든 뒤, (2) 부트스트랩 앙상블 원리를 변형해 각 모델을 완전 독립적인 전문가로 활용한다는 점이다. 기존 부트스트랩이 동일 데이터의 서브샘플에 대해 다수 모델을 학습하는 반면, BAGEL은 데이터셋 자체를 다르게 함으로써 공격 유형 전반에 대한 다양성을 확보한다.

추가적으로, 라우팅 단계에서 랜덤 포레스트(RF)를 사용해 입력 프롬프트의 구조적 특징(예: 토큰 길이, 특수문자 비율, 의도 추정 등)을 기반으로 가장 적합한 프롬프트‑코프를 예측한다. RF는 결정 트리 기반이므로 피처 중요도 분석이 가능해, 어떤 구조적 패턴이 악성으로 판단되는지 투명하게 드러난다. 라우터가 선택한 모델 외에, 확률적 샘플링을 통해 추가 k 개의 프롬프트‑코프를 무작위로 선택해 다수결 방식으로 최종 점수를 집계한다. 이중 라우팅+샘플링은 “전문가‑다중” 접근을 구현해, 특정 공격에 특화된 모델이 실패하더라도 다른 모델이 보완하도록 설계되었다.

성능 측면에서, 9개의 대규모 공개 악성 프롬프트 데이터셋(총 1 M+ 샘플)으로 평가했을 때, 5개의 모델만 사용해 (총 파라미터 430 M) F1 = 0.922, 공격 성공률(ASR) = 0.095, 위양성률(FPR) = 0.066을 기록했다. 이는 수십억 파라미터 규모의 OpenAI Moderation API와 ShieldGemma보다 우수하며, 특히 위양성률이 크게 낮다.

또한, 9차례에 걸친 순차적 업데이트 실험에서 기존 성능이 거의 유지되는 것을 확인했다. 새로운 공격 데이터셋이 추가될 때마다 동일 베이스 모델을 미세조정해 새로운 프롬프트‑코프를 삽입하고, 라우터와 임계값만 재학습하면 되므로 전체 시스템 재훈련 비용이 크게 절감된다.

해석 가능성 측면에서는 RF 피처 중요도 분석을 통해 “시스템 프롬프트 무시 지시”, “역할 전환 키워드”, “긴 코드 블록 삽입” 등이 악성 프롬프트의 핵심 신호임을 밝혀냈다. 이는 운영팀이 정책을 업데이트하거나 공격 유형을 추적할 때 직접적인 인사이트를 제공한다.

한계점으로는 (1) 라우터가 학습된 피처에 의존하므로 완전히 새로운 구조(예: 이미지‑텍스트 혼합 프롬프트)에는 민감도가 떨어질 수 있다. (2) 현재는 이진 분류만 지원해, 공격 유형별 세분화가 필요할 경우 별도 모듈이 필요하다. (3) 프롬프트‑코프 자체가 86 M 파라미터이므로, 초저사양 환경에서는 여전히 메모리·연산 부담이 존재한다. 향후 연구에서는 초경량 모델(예: 10 M 이하)과 지식 증류(KD) 기법을 결합해 라우터‑샘플링 구조를 더욱 경량화할 여지가 있다.

전반적으로 BAGEL은 “전문가‑다중·라​우팅” 설계를 통해 대규모 LLM 방어에 필요한 비용을 크게 낮추면서도 높은 탐지 정확도와 지속 가능한 업데이트 메커니즘을 제공한다는 점에서 실용적·학술적 가치를 모두 갖는다.


댓글 및 학술 토론

Loading comments...

의견 남기기