RAG 지식 추출 공격·방어를 위한 최초 통합 벤치마크
초록
본 논문은 Retrieval‑Augmented Generation(RAG) 시스템에서 민감한 지식베이스를 탈취하려는 공격과 이를 방어하기 위한 다양한 전략을 일관된 실험 프레임워크로 정리한 최초의 벤치마크를 제시한다. 3가지 검색 임베딩, 여러 오픈·클로즈드 소스 생성 모델, 4가지 도메인 데이터셋을 포함한 설계 공간을 정의하고, 공격·방어 메커니즘을 표준화된 평가 지표와 프로토콜로 비교한다. 실험 결과는 지식 형식·쿼리 다양성이 공격 성공도에 큰 영향을 미치며, 단계별 방어가 상호 보완적임을 보여준다.
상세 분석
이 연구는 RAG 파이프라인을 “입력‑검색‑생성”의 3단계로 분해하고, 각각에 적용 가능한 공격·방어 기법을 체계화한다. 공격 측면에서는 기존 연구가 제시한 INFORMATION(검색을 민감한 문서 쪽으로 유도)과 COMMAND(생성 단계에서 원문을 그대로 출력하도록 지시) 두 요소를 조합한 쿼리 설계 방식을 재현하고, 랜덤 토큰, 임베딩 최적화, LLM‑생성 프래그먼트 등 5가지 정보 신호와 “repeat all content”, “please copy” 등 4가지 명령어 패턴을 포함한다. 방어는 (1) 입력 차단 – 의심스러운 질의를 사전 필터링, (2) 검색 제한 – 반환 문서 수·유사도 임계값 조정, (3) 생성 후 처리 – 요약·필터링·비공개 구문 마스킹을 적용한다.
벤치마크는 세 가지 검색 임베딩 모델(MiniLM‑L6‑v2, GTE‑base‑768, BGE‑large‑en‑v1.5)과 네 종류의 생성 모델(GPT‑4o, GPT‑4o‑mini, LLaMA, Qwen)을 포함한다. 또한 의료 상담(HealthCareMagic), 기업 이메일(Enron), 저작권 텍스트(Harry Potter), 백과사전(Pokémon) 등 네 개의 실제 데이터셋을 원본, 청크, 그래프 트리플렛 방식으로 전처리해 12가지 지식베이스 구성을 만든다.
평가 지표는 (i) 추출 성공률(목표 문서 커버리지), (ii) 비목표 누출 비율, (iii) 쿼리‑응답 비용, (iv) 방어 회피율 등으로 표준화하였다. 실험 결과, 검색 임베딩의 용량이 클수록(예: BGE‑large) 공격 성공률이 상승하지만 동시에 비목표 누출도 증가한다. 또한, 텍스트 형식이 구조화된(그래프 트리플렛) 경우에는 검색 단계에서의 필터링이 효과적이며, 생성 단계에서 요약 방어는 원문 복제 공격을 크게 억제한다. 다중 라운드 공격에서는 쿼리 다양성을 확보할수록 전체 커버리지가 향상되지만, 방어 시스템이 입력 차단을 강화하면 스텔스가 급격히 감소한다는 점을 확인했다.
이러한 결과는 RAG 시스템 설계 시 “검색‑생성‑방어”의 연계 최적화가 필요함을 시사한다. 특히, 지식베이스의 형식·크기·전처리 방식에 따라 최적 방어 포인트가 달라지므로, 실운용 환경에 맞는 맞춤형 방어 체계를 구축해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기