LLM 기반 업무봇의 학습 대화 데이터 추출과 프라이버시 위험

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 기반으로 한 업무봇(TODS)에서 학습 데이터가 어떻게 기억되고, 이를 통해 구조화된 대화 상태(슬롯‑값 쌍)를 추출할 수 있는지를 체계적으로 조사한다. 기존의 텍스트 추출 공격이 TODS에 적용되지 않는 이유를 분석하고, 스키마‑가이드 샘플링과 편향 보정 조건 퍼플렉시티라는 두 가지 새로운 기법을 제안한다. 실험 결과, 목표 추출 상황에서 개별 슬롯 값은 100%에 가까운 정확도, 전체 대화 상태는 70% 이상 정밀도를 달성한다. 또한 반복적인 서브스트링, 일대다 응답 특성 등이 기억에 미치는 영향을 규명하고, 서브스트링 중복 감소와 값 복사 메커니즘 제한 등 완화 방안을 제시한다.

상세 분석

본 연구는 LLM 기반 업무봇이 기존 오픈‑도메인 챗봇과 달리 구조화된 “대화 상태”(belief state)를 출력한다는 점에 주목한다. 이러한 출력은 슬롯‑도메인‑값 형태의 레이블이며, 모델이 학습 과정에서 직접 최적화되는 대상이기 때문에 입력 발화 자체보다 더 높은 기억 가능성을 가진다. 논문은 먼저 기존 데이터 추출 공격(예: Carlini et al., 2020)이 프리픽스‑서픽스 방식으로 텍스트를 복원하는 데 초점을 맞추었으며, TODS에서는 프리픽스가 단순히 컨텍스트 역할을 하므로 직접적인 복원이 어려움을 지적한다.

이를 해결하기 위해 두 가지 핵심 기법을 설계하였다. 첫째, “스키마‑가이드 샘플링”은 업무봇이 지원하는 도메인 스키마(예: 레스토랑, 호텔 등)와 슬롯 목록을 사전 탐색하여, 샘플링 단계에서 허용되는 단어 집합을 제한한다. 이는 무작위 디코딩 시 발생하는 비문법적·비논리적 상태 출력을 크게 감소시키고, 후보 집합의 품질을 높인다. 스키마 탐색은 ChatGPT와 같은 외부 LLM을 이용해 사용자‑시스템 인터랙션을 시뮬레이션함으로써 자동화된다.

둘째, “편향 보정 조건 퍼플렉시티”는 기존 퍼플렉시티 기반 멤버십 추론이 흔히 흔한 인삿말이나 일반적인 슬롯 값에 과도하게 편향되는 문제를 해결한다. 조건 퍼플렉시티는 주어진 프리픽스와 후보 서픽스 사이의 엔트레일먼트를 측정하지만, 여기서 스키마 빈도에 따른 가중치를 차감하여, 흔히 등장하는 일반 슬롯보다 드물고 개인적인 값에 더 높은 점수를 부여한다.

실험 설계는 목표(타깃) 추출과 비목표(언타깃) 추출 두 시나리오를 포함한다. 목표 추출에서는 부분적인 슬롯 프리픽스를 제공해 특정 값(예: 전화번호, 레스토랑 이름)을 직접 유도하고, 비목표 추출에서는 빈 입력만으로 가능한 모든 슬롯 값을 탐색한다. 결과는 목표 상황에서 개별 슬롯 값의 정밀도가 100%에 근접하고, 전체 대화 상태는 70% 이상을 기록한다. 반면 비목표 상황에서는 값 단위는 67%까지 도달하지만, 전체 상태는 26% 수준에 머문다.

또한 기억에 영향을 미치는 두 가지 요인을 정량화하였다. 첫째, 학습 데이터 내 서브스트링 반복이 높을수록 모델이 해당 패턴을 더 강하게 기억한다는 점을 확인했다. 둘째, 대화의 일대다 특성(하나의 프리픽스에 여러 정답이 존재) 은 기억을 분산시켜 추출 난이도를 높인다.

완화 방안으로는 (1) 대화 레벨에서 중복 서브스트링을 최소화하도록 데이터 전처리를 수행하고, (2) 값 복사 메커니즘을 제한해 모델이 입력값을 그대로 복제하는 것을 방지하는 전략을 제시한다. 이러한 방안은 모델의 일반화 성능을 크게 저해하지 않으면서도 프라이버시 위험을 감소시킬 수 있다.

전반적으로 논문은 LLM 기반 업무봇이 구조화된 레이블을 통해 개인정보를 노출할 수 있음을 실증하고, 이를 탐지·완화하기 위한 실용적인 방법론을 제공한다는 점에서 프라이버시 보안 분야에 중요한 기여를 한다.

LLM 기반 업무봇의 학습 대화 데이터 추출과 프라이버시 위험

초록

상세 분석

댓글 및 학술 토론

의견 남기기