신뢰할 수 있는 에이전트 AI를 위한 다중모달 프롬프트 인젝션 방어 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM·VLM 기반 에이전트 시스템에서 발생할 수 있는 텍스트·이미지·메타데이터 등 다중모달 프롬프트 인젝션을 방지하기 위해, 텍스트·시각 정화 에이전트와 출력 검증 에이전트를 연계하고, 전 과정의 메타 정보를 기록하는 프로벤스 레저드를 활용한 크로스‑에이전트 방어 프레임워크를 제안한다. 실험 결과, 인젝션 탐지 정확도가 크게 향상되고 신뢰 누수가 최소화됨을 보인다.

상세 분석

이 논문은 최근 LLM·VLM을 활용한 LangChain·GraphChain 형태의 에이전트 네트워크가 복합적인 입력 경로와 도구 호출을 통해 강력한 자동화를 제공하지만, 동일하게 입력 표면이 텍스트·이미지·메타데이터 등 다양한 형태로 변조될 수 있는 공격 표면을 확대한다는 점을 지적한다. 기존 방어 기법은 주로 키워드 차단, 파인튜닝, RL‑guardrail 등 단일 모달 혹은 사후 검증에 머물러, 파라프레이징·스테가노그래피·메타데이터 변조와 같은 다중모달 인젝션을 효과적으로 차단하지 못한다. 논문은 이러한 한계를 극복하기 위해 네 가지 핵심 요소를 설계한다. 첫째, **텍스트 정화 에이전트(At)**는 입력 텍스트를 토큰 수준으로 분할하고, 각 토큰에 대해 임베딩을 추출한 뒤 사전 학습된 PIClassifier와 TrustModel을 이용해 인젝션 의도를 판단하고 신뢰 점수를 부여한다. 의심 토큰은 재작성하거나 삭제하고, 해당 토큰‑레벨 메타데이터를 프로벤스 맵에 기록한다. 둘째, **시각 정화 에이전트(Av)**는 OCR, EXIF 파싱, CLIP 기반 패치 임베딩을 결합해 이미지 내 숨은 텍스트·스테가노그래피·메타데이터 변조를 탐지한다. 각 패치에 신뢰 점수를 할당하고, 낮은 신뢰를 보이는 영역은 블러링·레드액션한다. 셋째, 프로벤스 레저드는 텍스트·이미지 모두에 대해 modality, trust, span/patch index, agent hop 간 인과 관계를 기록한다. 이 레저드는 이후 LLM 호출 시 신뢰‑인식 어텐션 마스크를 생성하는 근거가 된다. 넷째, **출력 검증 에이전트(B)**는 LLM이 생성한 응답을 정책 위반, 비밀 유출, 저신뢰 기여도 등을 검사하고, 필요 시 재생성을 요구한다. 전체 파이프라인은 입력 → 정화 → LLM → 출력 검증 → 다운스트림 에이전트 순으로 흐르며, 각 단계마다 프로벤스 레저드가 업데이트되어 제로‑트러스트 통신을 구현한다. 구현 측면에서는 Python 기반 LangChain/GraphChain 모듈을 래핑하고, 기존 컴포넌트(BaseMessage, PromptTemplate, Memory 등)에 source·trust·modality·provenance_id 필드를 추가한다. 실험에서는 합성된 텍스트·이미지 인젝션 데이터셋과 실제 도구 호출 시나리오를 사용해 기존 키워드·파인튜닝·샌드박스 대비 탐지 정확도가 20~35% 상승하고, 신뢰 누수 비율이 70% 이상 감소함을 보고한다. 이 결과는 다중모달·멀티에이전트 환경에서 사전 정화와 지속적인 프로벤스 추적이 효과적인 방어 메커니즘임을 입증한다. 논문은 또한 프로벤스 레저드가 감사 가능성을 제공해 규제 준수와 책임 추적에 기여할 수 있음을 강조한다.

신뢰할 수 있는 에이전트 AI를 위한 다중모달 프롬프트 인젝션 방어 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기