RAG 방어의 새로운 패러다임: 교차문서 주의 차단을 통한 지식 중독 방지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 RAG 시스템에서 발생하는 코퍼스 지식 중독 공격을 완화하기 위해, 문서 간 교차 주의를 차단하는 블록-희소 어텐션 기법인 SDAG를 제안한다. 인퍼런스 시 어텐션 마스크만 수정하면 되며, 별도의 파인튜닝이나 아키텍처 변경이 필요하지 않다. 다양한 LLM, 검색기, 데이터셋 및 공격 전략에 대한 실험 결과, SDAG가 기존 인과 어텐션 대비 공격 성공률을 크게 낮추고, 단일 문서 공격 상황에서는 최신 방어 기법을 능가함을 보인다. 또한 다중 문서 공격 방어와 결합했을 때 새로운 최첨단 성능을 달성한다.

상세 분석

이 논문은 Retrieval‑Augmented Generation(RAG) 파이프라인이 코퍼스에 삽입된 악의적 문서에 의해 출력이 왜곡되는 “코퍼스 지식 중독” 위협에 노출된다는 점을 명확히 짚는다. 기존 방어 연구는 주로 검색 단계에서 문서를 필터링하거나, 디스크리미네이터를 학습시키는 등 추가 컴포넌트를 도입하는 방식에 의존했다. 저자들은 이러한 접근법이 구조적으로 복잡하고, 특히 단일 악성 문서가 삽입될 경우 효과가 급격히 떨어진다는 한계를 지적한다.

핵심 아이디어는 LLM 디코더가 사용하는 인과(causal) 어텐션이 “문서 간 연속성”을 전제로 하지만, 실제 RAG에서는 서로 무관한 문서들이 하나의 시퀀스로 연결돼 입력된다는 점이다. 따라서 악성 문서가 정상 문서와 어텐션을 통해 서로 영향을 주고받아, 모델이 잘못된 정보를 증폭시킬 위험이 있다. 이를 방지하기 위해 저자들은 “Sparse Document Attention RAG”(SDAG)를 설계했다. SDAG는 토큰 수준에서 동일 문서 내에서는 기존 인과 어텐션을 유지하되, 서로 다른 문서 블록 간의 어텐션을 0으로 마스킹한다. 즉, 어텐션 마스크 A를 다음과 같이 정의한다:

문서 내부 토큰은 r ≥ c인 경우에만 주의 가능
문서 외부(질문, 프롬프트, 이미 생성된 토큰)와의 관계는 기존 인과 어텐션 유지
서로 다른 문서 블록 간의 모든 쌍은 0으로 차단

이 설계는 학습 단계에서 아무 변화가 없으며, 인퍼런스 시 마스크만 교체하면 된다. 따라서 기존 오픈소스 디코더‑전용 LLM(Llama‑8B‑Instruct, Qwen‑7B‑Instruct, Mistral‑7B‑Instruct)과 바로 호환된다.

실험에서는 두 가지 위협 모델(인‑코퍼스, 인‑셋)과 세 가지 공격 전략(Random, Near, Far)을 조합해 평가했다. Near와 Far 전략은 문서 임베딩 공간에서 정상 문서와의 거리 기반으로 악성 문서를 선택하는 새로운 방식이며, 특히 Near 전략이 공격 성공률을 크게 높이는 것으로 나타났다.

주요 결과는 다음과 같다.

SDAG는 기존 인과 어텐션 대비 Attack Success Rate(ASR)를 평균 30% 이상 감소시켰으며, QA 정확도도 동등하거나 약간 향상되었다.
단일 악성 문서 공격 상황에서, SDAG는 최신 방어 기법(예: 디스크리미네이터 기반 필터링)보다 통계적으로 유의미하게 높은 방어 성능을 보였다.
다중 악성 문서 방어 기법과 결합했을 때, SDAG는 새로운 최첨단 성능을 달성했으며, 특히 Near 전략에 대한 견고함이 크게 향상되었다.
임베딩 기반 분석을 통해, 악성 문서가 정상 문서와 임베딩 거리상 가깝게 위치할수록 공격이 더 성공적이며, SDAG는 이러한 “근접” 문서들을 효과적으로 무시하도록 작동한다는 점을 확인했다.

이 논문의 기여는 (1) 인과 어텐션이 RAG의 취약점임을 이론적으로 규명하고, (2) 최소한의 구현 비용으로 적용 가능한 블록‑희소 어텐션 방어 메커니즘을 제안했으며, (3) 다양한 설정에서 방어 효과를 실증적으로 입증했다는 점이다. 다만, 현재는 디코더‑전용 LLM에만 적용 가능하고, 인코더‑디코더 구조나 멀티모달 입력에 대한 확장은 아직 미탐색 상태이다. 또한 어텐션 마스크 변경이 토큰 길이 제한을 완전히 해소하지는 못하므로, 매우 긴 문서 집합에서는 여전히 컨텍스트 윈도우 문제와 계산 비용이 남는다. 향후 연구에서는 이러한 제한을 보완하고, 어텐션 차단 정책을 동적으로 학습하는 방법을 탐색할 여지가 있다.

RAG 방어의 새로운 패러다임: 교차문서 주의 차단을 통한 지식 중독 방지

초록

상세 분석

댓글 및 학술 토론

의견 남기기