프롬프트 기반 과다 생성 공격: 블랙박스 DoS 벤치마크와 진화·강화학습 공격기

프롬프트 기반 과다 생성 공격: 블랙박스 DoS 벤치마크와 진화·강화학습 공격기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 과다 생성 상태로 몰아넣어 토큰을 폭발적으로 출력하게 하는 블랙박스 공격을 체계적으로 평가한다. 토크나이저만 알면 가능한 두 가지 프롬프트 공격기, 진화적 탐색(EOGen)과 목표조건 강화학습(RL‑GOAL)을 제안하고, 과다 생성 정도를 나타내는 Over‑Generation Factor(OGF)를 도입해 Phi‑3 모델에 대한 실험 결과를 제시한다. RL‑GOAL이 특히 높은 OGF(2.70)와 64 % 이상의 성공률을 보이며 DoS 위협을 입증한다.

상세 분석

이 연구는 LLM의 토큰 생성 과정에서 EOS(end‑of‑sequence) 토큰이 억제될 경우, 모델이 컨텍스트 윈도우 크기보다 훨씬 많은 토큰을 생성하게 되는 현상을 ‘과다 생성(over‑generation)’이라 정의한다. 과다 생성은 응답 품질 저하, 지연 시간 및 비용 증가, 그리고 악의적인 경우 서비스 거부(DoS) 공격으로 전락할 수 있다. 기존 연구들은 주로 화이트박스 접근이나 단일 공격 알고리즘에 국한돼 있었지만, 본 논문은 ‘프롬프트‑오직’ 블랙박스 상황에서 공격자를 비교할 수 있는 벤치마크를 설계했다.

벤치마크는 두 가지 공격기를 중심으로 구성된다. 첫 번째인 Evolutionary Over‑Generation Prompt Search(EOGen)는 토큰 레벨에서 진화 알고리즘을 적용해 짧은 프롬프트 접두사를 탐색한다. 초기 무작위 프롬프트 집합을 생성하고, 각각의 ‘피트니스’를 OGF와 성공 여부로 평가한다. 선택, 교배, 변이 과정을 반복하면서 EOS를 억제하고 연속 토큰 수를 늘리는 프롬프트를 점진적으로 발견한다. 이 방식은 토크나이저와 모델의 출력만을 관찰하므로 완전한 블랙박스 환경에 적합하다.

두 번째 공격기인 goal‑conditioned reinforcement learning attacker(RL‑GOAL)는 목표 길이(예: 2배, 3배 컨텍스트)를 조건으로 하는 정책 네트워크를 학습한다. 에이전트는 현재 생성된 토큰 시퀀스를 상태로 받아, 다음 토큰을 선택해 EOS를 회피하도록 보상을 설계한다. 보상 함수는 (1) 목표 길이에 도달했을 때 큰 보상, (2) EOS가 조기에 등장하면 큰 페널티, (3) 토큰 비용을 최소화하는 항목을 포함한다. 학습 과정에서 모델에 대한 쿼리만 사용되며, 정책은 일반화된 프롬프트 생성기로 활용된다.

평가 지표로는 Over‑Generation Factor(OGF)=생성 토큰 수 / 컨텍스트 윈도우 크기를 도입했다. 또한 ‘Success@≥2’(OGF≥2 성공률), ‘stall’(생성 정지 여부), ‘latency’(응답 시간) 등을 종합적으로 보고한다. 실험은 최신 오픈소스 모델인 Phi‑3를 대상으로 수행했으며, EOGen은 평균 OGF 1.39±1.14, Success@≥2 25.2%를 기록했다. 반면 RL‑GOAL은 평균 OGF 2.70±1.43, Success@≥2 64.3%에 달했고, 46%의 시도에서 예산(토큰 제한) 초과로 비정상 종료되었다. 이는 강화학습 기반 프롬프트가 단순 진화 탐색보다 훨씬 강력한 과다 생성 유발 능력을 가짐을 의미한다.

이 논문의 주요 시사점은 다음과 같다. 첫째, 토크나이저만 공개된 상황에서도 공격자는 충분히 효과적인 과다 생성 프롬프트를 자동으로 찾아낼 수 있다. 둘째, 목표조건 강화학습은 ‘길이 목표’를 직접 최적화함으로써 공격 효율성을 크게 향상시킨다. 셋째, OGF와 같은 정량적 지표를 도입함으로써 DoS 위험을 객관적으로 측정하고 비교할 수 있다. 마지막으로, 현재 LLM 서비스 제공자는 토큰 제한, EOS 강제 삽입, 프롬프트 필터링 등 다층 방어 전략을 재검토해야 한다는 경고를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기