SEAL‑Tag: 검증‑후‑라우팅으로 구현한 PII‑안전 RAG 시스템

본 논문은 Retrieval‑Augmented Generation(RAG) 시스템에서 발생하는 개인정보(PII) 누출 위험을 근본적으로 해결하고자 한다. 서론에서는 RAG가 외부 문서를 실시간으로 컨텍스트에 삽입함으로써 ‘신뢰 경계’를 형성하고, 이 경계가 공격자에게는 정보 추출(Adaptive Extraction) 통로가 된다는 점을 강조한다. 기존 방어책은 스크러버(정규식·NER 기반), 블랙박스 안전 필터(Llama‑Guard), 외부 LLM 심사(GPT‑4 Judge) 등으로 구분되지만, 각각 의미 손실, 불투명성·탈옥 취약성, 높은 지연·비용이라는 트레이드오프를 가진다. 이에 저자들은 ‘Verify‑then‑Route’라는 새로운 런타임 패러다임을 제안한다. 모델은 먼저 답변 초안을 생성하고, 이어서 PII‑Evidence Table(PET)이라는 구조화된 증거 테이블을 출력한다. PET은 식별된 PII 엔터티, 해당 엔터티가 추출된 문서 위치, 그리고 링크 가능성 위험 점수를 포함한다. 이렇게 생성된 PET은 모델 내부에서 바로 검증 단계로 전달된다. 검증 단계는 Probabilistic Circuit(PC)으로 구현된다. PC는 합성곱 트리 구조를 갖는 확률적 그래프이며, 각 노드는 논리식(예: “PII ∧ unmasked → risk = 1”)을 정확히 구현한다. PC는 완전한 확률적 해석 가능성을 제공해 위험 점수의 단조성(monotonicity)과 캘리브레이션을 보장한다. 기존 신경망 기반 안전 분류기가 과신하거나 불확실성을 과소평가하는 문제를 회피하고, 마이크로초 수준의 추론 속도로 엣지 디바이스에서도 실시간 방어가 가능하도록 설계되었다. 데이터 부족 문제를 해결하기 위해 저자들은 S0‑S6 Anchored Synthesis Pipeline을 고안했다. S0 단계에서는 무작위 엔터티 삽입, S1‑S3에서는 문맥 변형·다중 홉 연결, S4‑S6에서는 정책 위반 시나리오와 정답 PET을 동시에 라벨링한다. 이렇게 생성된 12,000개의 합성 샘플은 PII‑RAG‑QA 벤치마크로 활용된다. 학습 과정은 Two‑Stage Curriculum으로 구성된다. Stage I는 엔터티 감지와 높은 리콜을 목표로 하는 감지 전용 사전학습을 수행한다. Stage II에서는 PET 스키마 준수를 강제하는 SFT(Instruction‑tuned) 과정을 적용한다. 이 두 단계는 ‘포맷 붕괴’를 방지하고, 모델이 일반 QA 능력을 유지하면서도 정확히 PET을 출력하도록 만든다. 실험에서는 SEAL‑Tag을 기존 스크러버, Llama‑Guard, GPT‑4 Judge와 비교하였다. 주요 평가지표는 (1) PII 누출률, (2) QA 정확도(F1), (3) 응답 지연, (4) 위험 점수 캘리브레이션이다. SEAL‑Tag은 적응형 공격(CopyBreakRAG) 대비 8.3배 낮은 누출률을 기록했으며, QA 정확도는 0.2% 차이로 기존 안전하지 않은 베이스라인과 동등했다. 응답 지연은 평균 1.2배 증가에 그쳤으며, PC 기반 판정은 99.9% 캘리브레이션 정확도를 보였다. 논문의 기여는 다섯 가지로 정리된다. (1) Verify‑then‑Route 런타임 환경, (2) 확률 회로 기반 안전 헤드, (3) 합성 데이터 파이프라인과 두 단계 커리큘럼, (4) 최초 공개된 대규모 PII‑RAG‑QA 벤치마크, (5) 실시간 엣지 배포가 가능한 고성능·고안전성 시스템 구현. 한계점으로는 PET 생성이 토큰 비용을 추가하고, 복잡한 정책(예: k‑anonymity, differential privacy) 적용 시 PC 설계가 비선형 제약을 다루기 어려울 수 있다는 점을 들었다. 또한 합성 파이프라인이 실제 도메인 특수성을 완전히 반영하지 못할 가능성도 있다. 향후 연구에서는 멀티모달 증거와 연계한 PC 확장, 정책 업데이트 시 동적 PC 재구성, 그리고 실제 기업 데이터에 대한 현장 평가를 진행할 계획이다.

SEAL‑Tag: 검증‑후‑라우팅으로 구현한 PII‑안전 RAG 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기