관찰 가능한 채널로 보는 LLM 에이전트 개인정보 유출 평가

본 논문은 대형 언어 모델(LLM) 에이전트가 내부에 보유한 민감 정보를 외부에 어떻게 누출할 수 있는지를 ‘채널’ 관점에서 통합적으로 평가하는 새로운 프레임워크 CIPL(Channel Inversion for Privacy Leakage)을 제안한다. 기존 연구들은 메모리, 검색 강화 생성(RAG), 도구 호출 등 개별 컴포넌트에 초점을 맞추어 각각의 위험을 별도로 분석했으며, 이로 인해 서로 다른 파이프라인 간의 위험 비교가 어려웠다. 저자들은 이러한 문제를 해결하기 위해 에이전트 파이프라인을 다음과 같은 6단계 흐름으로 일반화한다: 민감 소스(S) → 선택(Sel) → 조립(Asm) → 실행(Exec) → 관찰(Obs) → 추출(Ext). 각 단계는 내부에서 민감 정보가 어떻게 선택·가공·노출되는지를 구체적으로 정의한다. CIPL은 이 흐름을 기반으로 ‘타깃 시그니처 τ = (S, Sel, Asm, Exec, Obs, Ext)’를 정의하고, 공격자는 ‘Locator(대상 지정)’, ‘Aligner(관찰 채널 맞춤)’, ‘Diversification(다양한 프롬프트 변형)’ 세 요소를 조합해 공격 쿼리를 생성한다. 공격자는 제한된 쿼리 예산(n) 내에서 최대한 많은 민감 단위(예: 메모리 레코드, 문서 스니펫, 도구 반환 필드)를 회수하려고 시도한다. 내부 노출(z)과 외부 회수(V)의 차이를 통해 ‘내부 노출’과 ‘외부 누수’를 구분하고, 이를 정량화한다. 실험은 세 가지 대표 파이프라인에 적용되었다. 첫 번째는 메모리 기반 에이전트로, 기존 MEXTRA와 유사한 블랙박스 프롬프트 공격을 적용했을 때 거의 모든 메모리 레코드가 정확히 회수되는 ‘포화(high‑risk)’ 상태를 확인했다. 두 번째는 검색‑중심 파이프라인으로, 검색된 문서가 증거 필드나 요약 형태로 관찰 표면에 노출되지만, 전체 문서가 아닌 부분 스니펫이나 의미적 요약만이 회수되는 ‘빈번하지만 불완전한’ 누수 패턴을 보였다. 세 번째는 도구‑중심 파이프라인으로, 도구 호출 인자나 반환값이라는 구조화된 관찰 표면을 통해 누수가 발생했으며, 이때 누수 양상은 도구 제공자의 출력 정책과 관찰 표면 설계에 크게 의존했다. 특히, 관찰 표면이 자유형 텍스트가 아닌 구조화된 필드일 경우, 공격자는 해당 필드에 맞는 프롬프트 정렬이 필요했으며, 정렬이 약하거나 부정확하면 누수가 급격히 감소했다. 추가 실험에서는 ‘clean weak controls’라 불리는 최소한의 프롬프트 정렬만 적용했을 때 누수가 크게 억제되는 것을 확인했다. 이는 채널 조건 자체가 누수 발생의 주요 요인임을 의미한다. 또한, 단순 문자열 매칭(exact‑match)만으로는 실제 공격자가 활용할 수 있는 의미적 누수를 충분히 포착하지 못한다는 점을 강조한다. 의미 기반 주석(semantic annotation)을 도입하면 부분적이지만 실용적인 정보가 추가로 회수될 수 있음을 보여, 정확한 문자열 일치 외에도 의미적 누수 평가가 필요함을 제시한다. 결론적으로, 논문은 개인정보 위험을 ‘스토리지’가 아니라 ‘관찰 가능한 채널’에 초점을 맞춰 평가해야 한다고 주장한다. 메모리 누수는 특수한 고위험 사례이지만, 검색·도구 기반 시스템에서도 채널 설계와 프롬프트 정렬에 따라 충분히 심각한 누수가 발생할 수 있다. 따라서 시스템 설계자는 민감 정보가 어떤 관찰 표면을 통해 외부에 노출될 가능성이 있는지를 사전에 모델링하고, 최소한의 정렬 제어와 채널 제한을 통해 누수를 억제해야 한다. CIPL은 이러한 채널‑지향 평가를 가능하게 하는 통합 인터페이스를 제공함으로써, 향후 다양한 LLM 에이전트 파이프라인의 개인정보 보호성을 비교·검증하는 표준 도구로 활용될 전망이다.

관찰 가능한 채널로 보는 LLM 에이전트 개인정보 유출 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기