순서를 무시하고 LLM을 속이다: 다중 소스 데이터 환경을 겨냥한 새로운 프롬프트 주입 공격

순서를 무시하고 LLM을 속이다: 다중 소스 데이터 환경을 겨냥한 새로운 프롬프트 주입 공격
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 여러 출처의 데이터 세그먼트가 결합되는 LLM 애플리케이션 환경에서, 공격자가 세그먼트의 결합 순서를 알지 못해도 성공할 수 있는 새로운 프롬프트 주입 공격 기법 ‘ObliInjection’을 제안합니다. 핵심은 모든 가능한 세그먼트 순열에 대해 공격 목표 응답을 생성할 확률을 측정하는 ‘순서-무관 손실함수’와, 이를 최소화하도록 악성 세그먼트를 최적화하는 ‘orderGCG’ 알고리즘입니다. 실험 결과, 6개에서 100개에 이르는 세그먼트 중 단 하나만을 오염시켜도 다양한 LLM에서接近 100%에 가까운 공격 성공률을 달성했습니다.

상세 분석

ObliInjection의 기술적 혁신은 기존 공격의 근본적 한계를 해결한 데 있습니다. 기존 프롬프트 주입 공격은 단일 소스 데이터를 가정하거나, 다중 소스 환경에서 세그먼트의 순서가 고정되어 있다고 가정했습니다. 그러나 실제 RAG, 리뷰 요약, 도구 선택 등 대표적인 멀티-에이전트 시나리오에서는 세그먼트의 배열 순서를 공격자가 알기 어렵거나, 서비스 제공자가 보안을 위해 순서를 섞을 수 있습니다. 이 불확실성으로 인해 악성 프롬프트가 중간에 위치하면 뒤이은 정상 세그먼트에 의해 그 영향이 크게 약화될 수 있었습니다.

ObliInjection은 이 문제를 ‘순서-무관 손실(Order-Oblivious Loss)‘이라는 새로운 목표 함수를 도입하여 해결합니다. 이 손실은 공격자가 접근할 수 없는 정상 세그먼트 대신, 다른 LLM으로 생성한 ‘그림자 세그먼트(Shadow Segments)’ 집합을 사용하여, 이 그림자 세그먼트와 악성 세그먼트를 무작위로 섞은 모든 가능한 순열에 대해, 대상 LLM이 공격자가 원하는 응답을 생성할 때의 교차 엔트로피 손실의 기대값을 계산합니다. 이는 특정 순서가 아닌 ‘모든 순서’에서의 공격 성공 가능성을 정량화하는 지표입니다.

두 번째 핵심인 ‘orderGCG’ 알고리즘은 이 순서-무관 손실을 최소화하도록 악성 세그먼트를 최적화합니다. 기존 GCG(Gradient-based Coordinate Gradient)가 매 반복 단계의 근사 손실값에만 의존해 최적화하면 국소 최적해에 빠지기 쉬운 문제를, orderGCG는 빔 서치 전략과 버퍼를 도입해 여러 후보 해를 유지하며 반복적으로 개선함으로써 해결합니다. 또한 손실 계산에 사용된 그림자 세그먼트가 실제 정상 세그먼트와 길이나 의미적 유사성에서 크게 다르더라도 공격이 효과적이며, 한 LLM으로 최적화한 악성 세그먼트가 다른 미지의 LLM(예: GPT-4o)에도 효과적인 등 강건성을 입증했습니다. 이는 다중 소스 데이터를 처리하는 현실의 LLM 애플리케이션에 대한 실질적이고 강력한 위협을 의미합니다.


댓글 및 학술 토론

Loading comments...

의견 남기기